Big Data – hype ili prilika ?

Big data

Big Data – hype ili prilika ?

Ukoliko pratite Business intelligence/ Business Analytics svijet ili općenito IT svijet onda ste zasigurno naišli na pojam Big Data. Što je zapravo ta Big Data o kojoj svi pričaju, koju nude gotovo svi vendori (proizvođači softvera) u svom portfelju i koja je unijela uzbunu u nedostatku data scientista tj. kadrova koji će prikupljati, obrađivati i analizirati te velike podatke?  Općeg termina za Big Data još nema, svaka institucija ima svoj pojam, a mi ćemo uzet onaj od Wikipedije, prema kojem je Big Data skup podataka koji su toliko veliki i kompleksni da se ne mogu obraditi putem tradicionalnih baza podataka ili tradicionalnih aplikacija za obradu. Da li to znači da moramo umiroviti Codd-a i njegove relacijske baze podataka? Naravno da ne. Relacijske baze će u svome obliku postojati još dobar dio vremena, gdje će podaci biti pohranjeni u strukturiranom obliku, odnosno u stupcima i recima. Međutim za što onda služi Big Data? Big Data služi za prikupljanje, obradu i analizu velikog broja podataka, koji su opsegu, kompleksnosti i brzini dolaska veliki. Zasigurno ste onda i pročitali o popularnom 4V-u odnosno karakateristikama Big Data gdje  Volume predstavlja veliku količinu podataka, Velocity brzinu obrade podataka, Variety raznolikost podataka te Veracity istinitost podataka. Međutim nije toliko bitan taj popularni 4V, nego veća količina informacija koja nam može uvelike pomoći u poslovanju/istraživanju i sama kompleksnost tih informacija u rješavanju i postavljanju novih pitanja.

big_data_4v

Slika 1. Karakteristike Big Data

Podaci o podacima

Nakon što sam u gornjem dijelu teksta naveo, da se u Big Data služi za pohranu, obradu i analizu velike količine polustrukturiranih i nestrukturiranih podataka koji čine oko 80% od ukupnog broja podataka, vrijeme je da vam opišem koji su to polustrukturirani i nestrukturirani podaci. To su uglavnom podaci iz senzora strojeva, web logovi, feedovi s društvenih mreža, slike, videa, tekstovi tj. svi oni oblici podataka čija struktura nije smještena u stupce i retke kao što je u klasičnim tablicama. New York Times je koristio text mining na svim svojim člancima koje su ikada objavili, medicinske ustanove koriste analizu rendgenskih slika kako bi ustanovili anomalije u mozgu, skladišta koriste RFID čipove i njihove podatke kako bi kontrolirali ulazak i izlazak robe iz skladišta, financijske institucije koriste Big Data pri otkrivanju prevara, tvornice kod otkrivanja uzoraka kvarova ili performansi strojeva i tako u nedogled. Široka je lepeza primjene Big Data i analitike u različitim područjima. Da li to znači da skladište podataka više nema smisla, ako uvedemo Big Data? Izgleda da je skladište podataka još centralna baza znanja poduzeća i da će Big Data biti samo dio njega kako bi mogli proširiti vidike poduzeća.

Tehnički dio Big Data

Big Data je zasnovana na  MapReduce-u – frameworku za pararelno programiranje. MapReduce nije baza podataka niti konkurencija bazama podataka, međutim još danas susrećemo mišljenja da će MapReduce u potpunosti zamijeniti baze podataka. Postoji mnoštvo zadataka što možemo napraviti u MapReduce-om, koje također možemo napraviti i  s relacijskim bazama. O MapReduce-u ćemo u nekom drugom članku, ali moramo spomenuti da je MapReduce većinom oblikovan u Google-u i Yahoo-u. Danas je opće prihvaćen Hadoop koji je popularna open source verzija MapReduce-a koji je napravljen od strane već poznatog Apache-a. Hadoop, Hive, Oozie, Mahout, Lucene su neki od termina koje danas susrećemo u BigData svijetu i s kojima ćemo se susretati još dugo vremena.

01_Hadoop_full

 

Slika 2. Apache Hadoop Logo

Hype ili prilika  ?

Big Data je rezultat razvoja tehnologije zadnjih nekoliko desetljeća pogotovo razvojem MPP-a(Massive Pararell Processing), jeftinih servera visoke snage, te cloud tehnologije, međutim Big Data kao marketinški pojam je ušao kao mainstream tehnologija zadnjih 2-3 godine. Big Data je možda jedan od najrazvikanijih termina u IT-u, ali zato pruža nove prilike tvrtkama da se diferenciraju od konkurencije. Osobno mislim da je Big Data prilika koju apsolutno treba iskoristiti i smatram da će ovo “dijete” još morati rasti kako bi u budućnosti doživilo svoj puni potencijal.

Što vi mislite o Big Data. Mislite li da je tehnologija budućnosti ili prolazna stvar u IT-u ?