Değerli KD okuyucuları, başlangıç olarak belirlediğim bu yazım ile artık Big Data yazı serisine girmiş bulunmaktayız. Böyle birşeye girişmemin elbette nedenleri var, kaynak yetersizliği ve Türkiye’de yazılım geliştirme süreçlerinin standartlar çerçevesinde olması fakat bu çerçevenin tüm ihtiyaçları karşılamaması… Bu nedenle sizlerle makale ve gerek olduğu taktirde daha interaktif bir şekilde bilgi paylaşımları yapıyor olacağım. Umarım güzel bir yazı serisi olur ve faydalanırız.

İlk ana başlığımız olan Big Data hakkında teorik bilgileri inceleyerek başlayalım.

 

Big Data Tanımı ve Tarihçesi

“Big Data” Türkçe Büyük Veri anlamına gelir. Tahmin edebileceğiniz üzere hacim olarak boyutları yüksek olan verileri nasıl işleyebileceğimiz sorusuna cevaplar arıyoruz.

Her ne kadar günümüz teknolojisi ihtiyaçları doğursada kaynakça ve geçmişine baktığımızda Big Data’nın tarihi oldukça eskilere dayanmakta. Ne kadar eski diye soracak olursanız yaklaşık 70 yıl öncesi. Henüz teknoloji namına çokta kayda değer gelişmeler bulunmasada zamanın gereksinimleri de kendince yenilikleri getirmiş. Zaten herşey böyle başlamaz mı? J

Big Data’nın ilk adımları 1944 yılında Fremont Rider tarafından atılmıştır. Kendisi Wesleyan Üniversitei’nde kütüphaneci idi ve teorisi şu şekilde idi; her onaltı yılda bir Amerika’da ki üniversitelerin kütüphaneleri ikiye katlanarak büyüyordu bu nedenle 2040 yılında Yale Kütüphanesi’nin toplam 6.000 mil uzunluğunda rafların ve 200.000.000 kadar kitap olacağını ve bu işlemin ölçeklenebilir olması için 6.000 kişilik bir personele ihtiyaç olacağını öngörüyordu.

1961 yılında Derek Price bilimsel dergi ve gazetelerin büyüme oranlarına bakarak “Science Since Babylon”ı yayınladı. Yayınlanan bu dergi ve gazetelerin doğrusal olarak değil, katlanarak arttığını gördü ve her on beş yılda bir iki katına, yarım yüz yıl boyunca da on kat artacağına inanıyordu. Bu teorisinide “üstsel artış yasası” olarak adlandırdı. Her bilimsel gelişme başladığı andan itibaren sabit bir gelişme hızı gösteriyor yeni bir dizi oluşturuyordu ve bu gelişmelerin hızı herhangi bir zaman diliminde doğru orantılı olarak artacağını gösteriyordu.

 

Geçmişi ne kadar okursak okuyalım bugün içerisinde bir çözüm arayan kişiler olarak bundan sıkılacağımızı hepimiz biliyoruz J O nedenle bu tarihçe bilgisini burada sonlandırıyorum ancak okumanızda ve araştırmanızda kesinlikle fayda olacağına inanıyorum.

Gelelim bugüne. Bugün Big Data dev firmalar için ciddi sorun. Facebook bugün ortalama 5 Terabyte veriyi yazıyor. İçerisinde neler olduğunu tam olarak bilmiyor olabiliriz. Sonuçta hepimiz bir sosyal medya kullanıcısıyız fakat bunun icraatini farklı şekilde yapan birileri  ve onlarında ihtiyaçları, beklentileri, çözümleri var. Buzdağının altında neler var bilmiyoruz J Keza son zamanlarda hepimizin sevdiği gif resimler. Bu resimleri tek bir sunucuda tutmak ve onlara erişmek sizce mümkün mü? Ya o kadar kullanıcının talebi? NASA’nın verileri sizce ne tür bir teknoloji ile günümüze ışık tutuyor? Wikipedia gibi bir ansiklopedi binlerce kullanıcının araştırmalarına çözüm sunuyor? Finansal bilgiler ve onların yüzlerce kırımları nasıl tek bir havuzda birikmişcesine elimizde var oluyor? İşte dijital zamanın getirdiği sorunlar karşımıza bir bir çıkıyor. Biz teknolojiden kazanan insanlar bir yandan öğrenmeye çalışırken dışarda yüzlerce insan bu sorunları çözüyor ve süreç bu şekilde kısırlaşıyor. Sonu gelir mi? Kimse bilemez. Öyleyse bizde şu geliştirilen şeylerden biraz faydalanalım değil mi J

 

3V

Big Data’nın temel üç kavramı vardır diyebiliriz; “volume”, “velocity”, “variety”. Yani “hacim”, “hız”, “çeşitlilik”. Yukarıda bahsettiğim örneklere bakıldığında bu kavramların hepsini görebilirsiniz. Facebook’ta aylık 1.59 milyar kullanıcının aktif olduğunu ve bu kadar kullanıcının arasında birisini ararken milisaniyeler içerisinde bulabildiğimizi düşününce kullandıkları altyapının ne olduğunu düşünmüyor değiliz elbette. Bu kadar düşük bir gecikme payını oluşturan teknoloji için oldukça ter dökmüş olmaları gerek.

Facebook gibi birçok firmanın da kendilerine göre yöntemleri var. LinkedIn’e baktığımızda çok daha çeşitli veri türleri ile karşılaşıyoruz bazende karşımıza çıkan verilerin bizimle çok bağdaşmadığını söylüyoruz durum aslında pek öyle değil. Büyük verilerin geleneksel yöntemlerle analiz edilmesi imkansız olduğundan firmalar kendi iş gelişimlerini farklı teoriler ve yöntemlerle oluşturuyor. Bu süreçler ilk bakışta kendini pek belli etmiyor. Onca reklam, öneriler, yazılar, aramalar, analizler belli bir formüle odaklanarak karşımıza çıkıyor. Çünkü bu kadar verinin akışını, analiz ve sonuçlara ulaşmak için yeni teknolojiler ve yetenekler gerekiyor.

Hacim

Depolama sistemlerinin Terabyte yada Peyabyte düzeyinde verileri sahip olması çok olağan bir durumdur. Veriler büyüdükçede bunu kapsayan uygulamaları ve yapıların düzenlenmesi de çok doğaldır. Bazen aynı veri birden fazla açıdan tekrar değerlendirilir ve orijinal veri ile aynı olsa bile tutulması gerekebilir. Bu durumda veri sürekli olarak kendine bir yer bulma olanağı bulur. Bu durumda genele bakıldığında hacmin ne olduğu ortaya çıkar.

Hız

Herşeyin anlık olarak ilerlediği bir zaman içerisinde ve Sosyal Medya’nında patlamasıyla beklemek yada yavaşlık kavramlarıda tarihe karışıyor. Dün olan bir olayı gazeteden okuyup bugünün haberi olarak okuduğumuz zamanları hatırlayın… Şu an bu durumla ne kadar iç içeyiz? Neredeyse hiç… Herşey saniyeler içerisinde hayatımıza giriyor; insanlar yorumlar yazıyor, güncellemeler  yapıyor, mesajlar saniyeler içerisinde alıcılarına ulaşıyor. Saniyeler içerisinde de kullanıcının ilgi alanından çıkıp gidiyor ve yitiyor. Yani herşey “gerçek zamanlı” olarak ilerliyor.

Çeşitlilik

“Veri” denen kavrama bakışımız gün geçtikçe değişiyor. Artık yalnızca metinsel olmayan, farklılık gösteren kavramlar “veri” olarak hayatımızda yer edinmiş durumda. Videolar, resimler, ses dosyaları, pdf, csv dosyaları ve yüzlerce örnek. Geleneksel yöntemlerle yalnızca metinsel bir veri kaynağı ve değeri tutabilirken çeşitlilik arttı ve her saniye artmaya devam ediyor. Ancak bize kaçış noktası görünmüyor aksine bununla mücadele edebileceğimiz Big Data unsuru bizlere yardıma koşuyor.

 

Avantajları

Verileri daha iyi yönetmeyi ve bunları anlamlı kılmayı sağlar. Günümüzde insan eforu en pahalı şeylerden birisi. Bu durumda oturduğunuz yerden analizler yapabilmenizi sağlayacak bir çok araçlar var. Hız, kapasite ve ölçeklenebilir veriler elde edilir ki bunun anlamı “Cloud” diyebiliriz. Şirketlerin dahili verileri barındırmak için donanıma bir sermaye yatırımı yapmadan büyük verileri analiz edebilmesine olanak sağlar. Kullanıcılar verileri görselleştirebilir. Verileri ne kadar sağlıklı tutsakda bunu anlamlı bir şekilde göremedikten sonra pek bir anlamı kalmıyor.

Facebook'dan yorumla