Introduction to Data Science

Bugün Coursera üzerinde University of Washington’dan Bill Howe’un verdiği Introduction to Data Science dersini almaya başladım. Big Data ve bu datanın işlenebilirliğine çok uzun zamandır, daha Big Data kavramını duymadığım zamanlardan beri büyük bir ilgi duyuyorum. Bu ders de klasik Relational Algebra’dan başlıyor ve Big Data’dan, şu sıralar oldukça ilgili olduğum NoSQL veritabanlarından, MapReduce’den, Declarative Languages’den vs. devam ederek gidiyor. Bill Howe, öğrencileri derse ısındırmak için güzel bir giriş yapmış ve ben de bu girişte yer alan ve Data Science ile alakalı bilgileri buraya yazmak istiyorum.

  • Nate Silver, 2012’de ABD’nin başkanlık seçimi üzerine yaptığı çalışmada elde ettiği sonuçları doğru şekilde değerlendirerek (yanlış anlamadıysam) eyalet bazında tüm sonuçları doğru tahmin etmiş. İnanılmaz!
  • Google’ın insanlık tarihindeki tüm kitapları dijital ortama aktarma niyetinde olduğunu ve bu niyetine büyük bir kaynak ayırdığını biliyoruz. Bunun yanı sıra Google, Ngram Viewer adında bir tool geliştirmiş. Dijitalize ettiği kaynakları gram bazında (1 kelime = 1 gram) ayırıyor ve bu tool ile belirttiğiniz yıllar arasında arama yapmak üzere istediğiniz kelimelerin sıklığını birbirleriyle karşılaştırmalı olarak verebiliyor. Bayıldım desem yeridir. Burdan ulaşabilirsiniz: http://books.google.com/ngrams
  • Google’ın kitapları dijital ortama aktarma niyetinden bahsetmişken, Bill Howe’dan öğrenmediğim bir bilgiyi de paylaşmak isterim. Google orijinli captcha sistemi iki yönlü çalışıyor. Bir yandan hepimizin bilgiği gibi sunucuya gelen isteklerin makineden mi yoksa insandan mı geldiğini anlamakta kullanılıyor. Birçoğumuzun bilmediği ise, Google’ın captcha’yı kullanarak kitapları dijital ortama aktardığı. Captcha her gün milyonlarca insan tarafından kullanılıyor ve siz bilmeden de olsa Google’ın kitapları dijital ortama taşımasına yardımcı oluyorsunuz. Nasıl mı oluyor? Captcha’da her zaman iki kelime bulunur. Bu kelimelerden birisinin textual karşılığı Google’ın veritabanlarında zaten bulunurken, diğeri bulunmuyor. Textual karşılığı bulunan kelime sizin insan olduğunuzu tespit etmekte kullanılırken, diğer kelimeyi de yazarak o kelimeyi Google’ın veritabanına kazandırmış oluyorsunuz. Dahiyane.
  • 1900’den 2000 yılına kadar yayınlanan kitaplar arasında “joy (keyif)” ile “sadness (üzüntü)” kelimeleri taranmış ve “joy – sadness” gibi basit bir cebir işlemine dayalı z-scorelar bulunmuş. Bu grafiği aşağıda veriyorum. Görür görmez tüylerimi ürperttiğini söylemeliyim.joy_sadnessÖzellikle 1940’lı yıllarda yaşanan inanılmaz düşüşü görebiliyoruz. Bu düşüşün İkinci Dünya Savaşı’na denk gelmiş olması rastlantı değil. Diğer yandan, aynı sonucu Birinci Dünya Savaşı’nda göremememiz ise o kadar da ilginç değil. Bu tarama İngilizce yayınlarda yapılmış ve Birinci Dünya Savaşı sırasında İngilizce yayınlar çıkaran milletlerin bu savaştan etkilenmediği ya da bu savaşın çıkarlarına olduğu görülebiliyor. 2000’li yıllarla birlikte “joy” üzerine yine bir artış mevcut. Umalım da böyle devam etsin.
  • Son olarak paylaşacağım bir grafik daha mevcut. Joy ve sadness kelimeleri ile yaptıkları veri eşeleme işleminin aynını “emotional words (duygu içeren kelimeler)” ile de yapmışlar ve aşağıdaki grafiği “emotional words – random words” gibi basit bir cebir işlemine dayandırmışlar.emotion_random1900’lü yıllardan 2000’li yıllara doğru görebildiğimiz üzere genel olarak bir duygu azalması mevcut. Yine İkinci Dünya Savaşı sırasında kırmızı çizgiyle gördüğümüz “fear (korku)” artışı ve diğer tüm duyguları geri planda bırakıp 2000’li yıllara doğru yeniden artışa geçen “fear” üzerine belki düşünülebilir.

Leave a Reply