Big Data hakkında notlar

Bill Howe’un Introduction to Data Science dersinden Big Data hakkında bir iki notu yazmak lazım ki unutmayalım.

  • University of Berkeley’den Michael Franklin diyor ki: “Big Data is any data that is expensive to manage and hard to extract value from.” Yani Big Data’nın Big kısmı aslında göreceli. Verinin büyüklüğünü ölçmenin tek yolu ne kadar yer kapladığı değil, veriyi ayıklamanın ne kadar problemli olduğu.

  • Big Data ile ilgili önemli bir soru şu: Bu kadar fazla veri nerden geliyor?
  1. Kullanıcılardan alınan veriler. Kullanıcılarla sistem arasında eskiden olduğundan çok daha yüksek bir etkileşim mevcut. Artık kullanıcılara sadece reklam göstermekle kalınmıyor, bu reklam sırasında ne zaman nereye tıklandığı gibi bilgilerin de bulunduğu click streamleri alınıyor.
  2. Sensörler. Teknolojinin gelişmesiyle beraber sensörler de gelişiyor ve ucuzluyor; böylece kullanımları artıyor. Geçen haftalarda insanların trafikte başka insanlara nasıl yardım ettikleriyle ilgili bir video izlemiştim. Video Rusya’daki olaylardan derlenerek hazırlanmış ve her bir senaryo arabanın ön tarafını çeken kameralar sayesinde kayda alınabilmiş. “Bu insanlar kamerayı bilerek mi koymuşlar?” diye düşünürken bu uygulamanın Rusya’da sigorta şirketlerinin isteği doğrultusunda standartlaşan bir uygulama olduğunu öğrendim. Düşünsenize, milyonlarca araba sürekli olarak video kaydı yapıyor. Bu arada merak edenler videoya buraya tıklayarak ulaşabilir.
  3. Her şeyi saklama yetisi. Yine teknolojinin gelişmesi sayesinde bir baytı saklamak için gereken maliyet gün geçtikçe düşüyor. Azalan bu maliyetin sonuçları da insanların “saklamasam da olur” dedikleri verileri dahi saklamasını getiriyor.
  • Big Data hususunda temel olarak 3 sorun var. Bunlar Volume, Velocity ve Variety. Volume, verinin büyüklüğü. Velocity, interaktif ortamlarda veriye olan talebe göre verinin işlenme hızı. Yani diyelim ki interaktif bir mecra olan sosyal medyadasınız. Birileri sürekli olarak yeni veri üretirken, sistemin bu verileri hızlıca anlamlandırması ve size anlamlı birer veri olarak sunması gerekiyor. Son olarak Variety, eldeki verilerin çeşitliliği. Çeşitlilik ne kadar artarsa, verilerin anlamlandırılması da o kadar zor oluyor.
  • Erik Larson taa 1989’da Harper’s dergisine demiş ki: “The keepers of big data say they do it for the consumer’s benefit. But data have a way of being used for purposes other than originally intended.” Bunu Bill Howe da sürekli tekrar ediyor. Özellikle yukarıda verdiğim örnekte, araba için kara kutu özelliği taşıyan video kayıt cihazlarının bundan belli bir süre sonra çok daha farklı amaçlara hizmet edebileceği, örneğin korkulduğu gibi özel hayatın gizliliğini ihlal edebileceği üzerine de duruluyor. Bill Howe’un da zaten Erik Larson’ın bu demecinden çıkardığı sonuç, özel verinin kamulaşma yönünde ilerliyor olması.
  • Son olarak Big Data’ya teknoloji odaklı bir bakış atarsak, Bill Howe’un da söylediği üzere disk kapasiteleri inanılmaz bir hızla artarken disk latency dediğimiz ve veriyi bulma olarak anlamlandırabileceğimiz “arama” hızı yerinde saymaya devam ediyor. Çok daha fazla veri saklayabiliyor olduğumuz doğrudur, ancak veriye ulaşma gücümüz verilerin de çoğalmasıyla aslında zayıflıyor.

Introduction to Data Science II

Bill Howe’un dersi devam ediyor. Dersin contextinden bahsederken bazı güzel notlar sıralamış ve kendini kanıtlamış bazı data scientistlerden alıntılar yapmış. Kısaca bunlara bakalım:

drew_conway_venn_diagram

 

Drew Conway, Machine Learning’in bir adım öteye götürülebileceğini söylemiş. Verilerle uğraşmak aslında o kadar da kolay değil. Bu uğraş için pratik hacking yeteneği, iyi bir matematik ve istatistik bilgisi ve kısaca anlamlı ve süregelen bir uzmanlığa sahip olmak gerekiyor.

Peki LinkedIn‘de Chief Scientist olarak çalışan DJ Patil konuyla ilgili ne diyor?

Diyor ki, data scientist dediğimiz adamın aslında bilgisayar bilimleri altyapısından değil de, fizik ya da matematik gibi daha somut bir altyapıdan gelmesi gerektiği. Bunun sebebini de, altyapısında matematiksel bilimler olan bir insanın anlamlı veri yakalayabilmesi için çok daha fazla uğraşmasına, bu nedenle big picture dediğimiz bakış açısına odaklanmasına bağlıyor.

Mike Driscoll’a göre, data scientistleri şu üç önemli yeteneğe sahip olmalı: Statistics, Data Munging and Visualization. Statistics ve Visualization maddelerinin anlamları gayet açık. Data Munging ise elindeki veriyle oynayabilme yeteneği. Bill Howe’un slaytlarına göre kısaca parsing, scraping, formatting data diye gidiyor. Benim de şu üç madde arasından en çok hoşlandığım şey bu data munging, hatta bit.ly‘nin chief scientisti Hilary Mason’ın eşanlamlı kullandığı üzere data wrangling ya da data jujitsu. Bu iş iyi kotarılırsa, elde edilecek verinin görselleştirilmesinin inanılmaz bir zevk vereceği kanaatindeyim.

Introduction to Data Science

Bugün Coursera üzerinde University of Washington’dan Bill Howe’un verdiği Introduction to Data Science dersini almaya başladım. Big Data ve bu datanın işlenebilirliğine çok uzun zamandır, daha Big Data kavramını duymadığım zamanlardan beri büyük bir ilgi duyuyorum. Bu ders de klasik Relational Algebra’dan başlıyor ve Big Data’dan, şu sıralar oldukça ilgili olduğum NoSQL veritabanlarından, MapReduce’den, Declarative Languages’den vs. devam ederek gidiyor. Bill Howe, öğrencileri derse ısındırmak için güzel bir giriş yapmış ve ben de bu girişte yer alan ve Data Science ile alakalı bilgileri buraya yazmak istiyorum.

  • Nate Silver, 2012’de ABD’nin başkanlık seçimi üzerine yaptığı çalışmada elde ettiği sonuçları doğru şekilde değerlendirerek (yanlış anlamadıysam) eyalet bazında tüm sonuçları doğru tahmin etmiş. İnanılmaz!
  • Google’ın insanlık tarihindeki tüm kitapları dijital ortama aktarma niyetinde olduğunu ve bu niyetine büyük bir kaynak ayırdığını biliyoruz. Bunun yanı sıra Google, Ngram Viewer adında bir tool geliştirmiş. Dijitalize ettiği kaynakları gram bazında (1 kelime = 1 gram) ayırıyor ve bu tool ile belirttiğiniz yıllar arasında arama yapmak üzere istediğiniz kelimelerin sıklığını birbirleriyle karşılaştırmalı olarak verebiliyor. Bayıldım desem yeridir. Burdan ulaşabilirsiniz: http://books.google.com/ngrams
  • Google’ın kitapları dijital ortama aktarma niyetinden bahsetmişken, Bill Howe’dan öğrenmediğim bir bilgiyi de paylaşmak isterim. Google orijinli captcha sistemi iki yönlü çalışıyor. Bir yandan hepimizin bilgiği gibi sunucuya gelen isteklerin makineden mi yoksa insandan mı geldiğini anlamakta kullanılıyor. Birçoğumuzun bilmediği ise, Google’ın captcha’yı kullanarak kitapları dijital ortama aktardığı. Captcha her gün milyonlarca insan tarafından kullanılıyor ve siz bilmeden de olsa Google’ın kitapları dijital ortama taşımasına yardımcı oluyorsunuz. Nasıl mı oluyor? Captcha’da her zaman iki kelime bulunur. Bu kelimelerden birisinin textual karşılığı Google’ın veritabanlarında zaten bulunurken, diğeri bulunmuyor. Textual karşılığı bulunan kelime sizin insan olduğunuzu tespit etmekte kullanılırken, diğer kelimeyi de yazarak o kelimeyi Google’ın veritabanına kazandırmış oluyorsunuz. Dahiyane.
  • 1900’den 2000 yılına kadar yayınlanan kitaplar arasında “joy (keyif)” ile “sadness (üzüntü)” kelimeleri taranmış ve “joy – sadness” gibi basit bir cebir işlemine dayalı z-scorelar bulunmuş. Bu grafiği aşağıda veriyorum. Görür görmez tüylerimi ürperttiğini söylemeliyim.joy_sadnessÖzellikle 1940’lı yıllarda yaşanan inanılmaz düşüşü görebiliyoruz. Bu düşüşün İkinci Dünya Savaşı’na denk gelmiş olması rastlantı değil. Diğer yandan, aynı sonucu Birinci Dünya Savaşı’nda göremememiz ise o kadar da ilginç değil. Bu tarama İngilizce yayınlarda yapılmış ve Birinci Dünya Savaşı sırasında İngilizce yayınlar çıkaran milletlerin bu savaştan etkilenmediği ya da bu savaşın çıkarlarına olduğu görülebiliyor. 2000’li yıllarla birlikte “joy” üzerine yine bir artış mevcut. Umalım da böyle devam etsin.
  • Son olarak paylaşacağım bir grafik daha mevcut. Joy ve sadness kelimeleri ile yaptıkları veri eşeleme işleminin aynını “emotional words (duygu içeren kelimeler)” ile de yapmışlar ve aşağıdaki grafiği “emotional words – random words” gibi basit bir cebir işlemine dayandırmışlar.emotion_random1900’lü yıllardan 2000’li yıllara doğru görebildiğimiz üzere genel olarak bir duygu azalması mevcut. Yine İkinci Dünya Savaşı sırasında kırmızı çizgiyle gördüğümüz “fear (korku)” artışı ve diğer tüm duyguları geri planda bırakıp 2000’li yıllara doğru yeniden artışa geçen “fear” üzerine belki düşünülebilir.