Big Data hakkında notlar

Bill Howe’un Introduction to Data Science dersinden Big Data hakkında bir iki notu yazmak lazım ki unutmayalım.

  • University of Berkeley’den Michael Franklin diyor ki: “Big Data is any data that is expensive to manage and hard to extract value from.” Yani Big Data’nın Big kısmı aslında göreceli. Verinin büyüklüğünü ölçmenin tek yolu ne kadar yer kapladığı değil, veriyi ayıklamanın ne kadar problemli olduğu.

  • Big Data ile ilgili önemli bir soru şu: Bu kadar fazla veri nerden geliyor?
  1. Kullanıcılardan alınan veriler. Kullanıcılarla sistem arasında eskiden olduğundan çok daha yüksek bir etkileşim mevcut. Artık kullanıcılara sadece reklam göstermekle kalınmıyor, bu reklam sırasında ne zaman nereye tıklandığı gibi bilgilerin de bulunduğu click streamleri alınıyor.
  2. Sensörler. Teknolojinin gelişmesiyle beraber sensörler de gelişiyor ve ucuzluyor; böylece kullanımları artıyor. Geçen haftalarda insanların trafikte başka insanlara nasıl yardım ettikleriyle ilgili bir video izlemiştim. Video Rusya’daki olaylardan derlenerek hazırlanmış ve her bir senaryo arabanın ön tarafını çeken kameralar sayesinde kayda alınabilmiş. “Bu insanlar kamerayı bilerek mi koymuşlar?” diye düşünürken bu uygulamanın Rusya’da sigorta şirketlerinin isteği doğrultusunda standartlaşan bir uygulama olduğunu öğrendim. Düşünsenize, milyonlarca araba sürekli olarak video kaydı yapıyor. Bu arada merak edenler videoya buraya tıklayarak ulaşabilir.
  3. Her şeyi saklama yetisi. Yine teknolojinin gelişmesi sayesinde bir baytı saklamak için gereken maliyet gün geçtikçe düşüyor. Azalan bu maliyetin sonuçları da insanların “saklamasam da olur” dedikleri verileri dahi saklamasını getiriyor.
  • Big Data hususunda temel olarak 3 sorun var. Bunlar Volume, Velocity ve Variety. Volume, verinin büyüklüğü. Velocity, interaktif ortamlarda veriye olan talebe göre verinin işlenme hızı. Yani diyelim ki interaktif bir mecra olan sosyal medyadasınız. Birileri sürekli olarak yeni veri üretirken, sistemin bu verileri hızlıca anlamlandırması ve size anlamlı birer veri olarak sunması gerekiyor. Son olarak Variety, eldeki verilerin çeşitliliği. Çeşitlilik ne kadar artarsa, verilerin anlamlandırılması da o kadar zor oluyor.
  • Erik Larson taa 1989’da Harper’s dergisine demiş ki: “The keepers of big data say they do it for the consumer’s benefit. But data have a way of being used for purposes other than originally intended.” Bunu Bill Howe da sürekli tekrar ediyor. Özellikle yukarıda verdiğim örnekte, araba için kara kutu özelliği taşıyan video kayıt cihazlarının bundan belli bir süre sonra çok daha farklı amaçlara hizmet edebileceği, örneğin korkulduğu gibi özel hayatın gizliliğini ihlal edebileceği üzerine de duruluyor. Bill Howe’un da zaten Erik Larson’ın bu demecinden çıkardığı sonuç, özel verinin kamulaşma yönünde ilerliyor olması.
  • Son olarak Big Data’ya teknoloji odaklı bir bakış atarsak, Bill Howe’un da söylediği üzere disk kapasiteleri inanılmaz bir hızla artarken disk latency dediğimiz ve veriyi bulma olarak anlamlandırabileceğimiz “arama” hızı yerinde saymaya devam ediyor. Çok daha fazla veri saklayabiliyor olduğumuz doğrudur, ancak veriye ulaşma gücümüz verilerin de çoğalmasıyla aslında zayıflıyor.

Leave a Reply