Big Data Nedir ?

2012’nin modası Big Data

Bu yazımda , 2012 yılına girmemize sayılı günler kala 2012’i yılının bir numaralı konusu olacak olan Big Data ve çözümleri  konusunda biraz bilgi vermek istiyorum.

Geçen 20 seneye baktığımızda IBM – Microsoft – Oracle -EMC  gibi şirketler her yıl yeni bir teknolojiyi bize sundular. Bu yenilikler bazen müşteri ihtiyaçlarından bazen de pazarlama stratejisi olarak sunuldu. Bizde bu ürünleri seve seve kullandık ve kullanmaya da devam edeceğiz .

Kurumsal paket uygulamalara ilk önce ERP geçişleriyle başladı. ERP sistemleri ile işletmelerdeki tüm departmanlar özellikle Finans, Muhasebe, Satın alma gibi departmanlar  bir birleriyle aynı programı kullanmaya başladılar. ERP sistemleri kurulmasından sonra işletmeler  ; çalışanları – dış kaynakları -tedarikçileri için çözüm arayışlarına girdiler. ERP sistemi ile entegre çalışacak CRM , Portal , İş Akışı ve Doküman Yönetimi  programları bu yıllarda devreye girdi. Artık uygulama sayısı artmıştı ve her uygulama data üretiyordu. Ama bir sorun vardı, bu verilerin içinde detaylı rapor alınamıyordu . Datalar farklı ortamlarda bir yığın şeklinde duruyordu . Bu verilerin bilgiye dönüşmesi için raporlama özelliklede Business Intelligence( İş Zekası ) çözümleri devreye girdi. Saatler veya günlerce çalışıp sonuç getiren raporlar artık birkaç dakikada sonuç getirmeye başladı. Bu kadar çok uygulama da oldukça ciddi bir sunucu kaynağına ihtiyaç oluşturuyordu, artık sunucuların yönetilmesi ve yedekleme sisteminin değişmesi gerekiyordu. Bu kapsamda da sanallaştırma ve disaster recovery ( felaket kurtarma ) karşımıza çıktı. Artık istediğimiz kadar sanal makinalar üretip herhangi bir felaket durumunda disaster bölgemizden çalışmalara devam edebiliyorduk. Sanallaştırmadan sonra ki durak ise bulut bilişim oldu . IT is a service yaklaşımı tüm dünyada kabul gördü . Şimdi geldik 2012 yılına , bu seneki trendimiz Big Data. Hepimize hayırlı olsun.

Big Data nedir ?

Big Data kısaca herhangi İlişkisel veritabanları ile yönetilemeyecek büyüklükte olup  büyümeye devamlı devam eden verilerdir. IDC ‘nin yayınladığı raporda 2020’lerde toplam sayısal verinin 35ZettaByte olması bekleniyor. ( 1 ZettaByte = 1 Milyar TeraByte ) . Ayrıca 2020’de ulaşılacak veri miktarı, 2009’un 44 katı olacak. Eskiden kişisel dosyalarımız  disketlere veya birkaç CD’ye sığarken  artık TB’lık yüksek kapasiteli disklere sığamaz hale geldi . Yine IDC ‘nin istatistiklerine göre mevcut verinin %80 ‘ni herhangi bir veritabanında  durmuyor. Bu verilere örnek olarak  mailler , resim dosyaları , video dosyaları , ofis belgelerini  verebiliriz. İşletmeler için durum çok daha karışık . İşletmeler  bu devasa hız ve çeşitlilikte artan verileri depolanması ve analiz edilmesinde çok sorun çekiyorlar.

Bigdata

Verinin büyümesiyle ; verinin saklama yeri sorunu , veriye ulaşma hızı , veri tipindeki çeşitlilik , doğru veriye yetkili kişilerin erişebilmesi  ve en önemlisi analiz edilmesi sorunu karşımıza çıkıyor.

Almanların deyişiyle “Zeit ist Gold “ , bizdeki ifadeyle “Vakit nakittir” . İşletmeler rekabet avantajı sağlayabilmeleri için hızlı davranmak  zorundalar.  Şu anki BI çözümlerinde oluşturulan OLAP küplerindeki data genelde  bir T anında ki değeri vermektedir. Büyük miktarda verinin analiz edilmesi için oluşturulan bu raporların çalışma süresi çok vakit almaktadır. Bu sorunun ortadan kalkması için yazılım ve donanım üreticileri bir araya gelerek çözümler üretmeye başladılar. SAP ‘nin vermiş olduğu bir örnek bize bir fikir verebilir diye düşünüyorum. Elimizde  2 milyar müşteri hareket datası  olsun .  Biz bu data içinde  zamanında ödeme yapmamış olan müşterileri sorgulayan bir rapor oluşturalım . Bu rapor normalde 70 küsur dakika sürerken SAP ‘nin HANA  çözümü ile 13 saniyeye inerek 350 kat  hızlanabiliyor. Bu, ölçeklenebilir platformun büyük miktarda veriyi gerçek zamanlı şekilde analiz etmesini sağlıyor .

Eğer programcı  bilgiyi Harddisk değilde RAM üzerinden alıp işleyebilirse bu hız sağlanabiliyor . SSD ‘ler harddisk dünyasına yeni bir  boyut açtı. Ama büyük datalar için disk teknolojisi yetersiz. Siz datayı diskten alıp ram üzerinde tutmanız  ve yeri geldiğinde oradan datayı alıp işlemeniz gerekiyor. Örnek vermek gerekirse Google’ın veri indekslerini  bildiğimiz veritabanı yönetim sistemi ile tutmaya kalkması pek mümkün değil. Big data ile veritabanı sistemleri ve uygulama geliştirme dilleri değişecek. Hadoop ve nosql  veritabanları günümüzde konuşulmaya başladı bile.

Yazılım ve donanım şirketleri artık beraber çözümler üretmeye başladı. Bence big data konusuna yazılımsal olarak en fazla çalışan IBM , donanımsal olarakta EMC .Büyük şirketlerin Big Data için yapmış oldukları çözümlerden de kısaca bahsedersek:

  • SAP ; HP , Fujitsu ve IBM ile beraber geliştirdiği HANA çözümü tanıttı. SAP’nin In-Memory teknolojisi olan HANA(High Performance Analytic Appliance) çözümü ile veri ana bellekte tutuluyor ve alınan raporlar hızlı ve online bir şekilde olabiliyor.
  • Microsoft HP ile oluşturdukları kutu çözümleri ile özellikle SQL serverı hızlandırmayı düşünüyor.
  • Oracle EMC ile geliştirdikleri çözüm ile özellikle sanal makine üzerinde çalışan SAP sistemlerini hızlandırabiliyor.Ayrıca SUN ile işbirliği yapıyor.
  • EMC bu alanda en fazla yatırım yapan şirketlerden .Isilon , OneFs  ve Scale –Out Nas çözümlerini örnek olarak gösterebiliriz.
  • IBM ise bu alanda en öncü şirket. Netezza ve IBM DB2 Analytics Accelerator ürünlerini bu kapsamda düşünebiliriz. Daha detaylı
    bilgiye www.ibm.com/smartercomputing  adresinden erişebilirsiniz.

Sonuç olarak IT dünyası çok büyük bir değişime girdi. Zamanında As400 gibi sistemlerle Pascal , Fortran gibi uygulama geliştirme  dilleri yok olduysa belki günümüzde kullandığımız bir çok veritabanı ve yazılım geliştirme dili gelecek 3-5 sene içinde olmayacak.

1 Comment
  • Posted at 19:25, 14/02/2015

    Makale için çok teşekkür ederim. Gayet açık ve bilgilendirici olmuş.

Post a Comment

Comment
Name
Email
Website