Kad  „Veliki podaci“ postanu sastavni dio poslovanja

Big data

Kad „Veliki podaci“ postanu sastavni dio poslovanja

Podaci, podaci, podaci. Riječ koju često srećemo u svakodnevnom životu, pogotovo u svijetu informacijskih tehnologija. U poslovanju mogu poslužiti kao izvor kvalitetan izvor informacija na temelju kojih donosimo više/manje dobre poslovne odluke, ali mogu biti korišteni od ne tako dobrih ljudi, kao što je primjer špijuniranja američkih obaviještajnih službi. Što su zapravo podaci ? Prema Wikipediji podaci (engl. datum za jedninu, data za množinu) predstavljaju simbolički i formaliziran prikaz činjenica, pojmova i instrukcija, pogodan za komuniciranje, interpretaciju i obradu uz pomoć ljudi ili strojeva.

Međutim, tema ovog članka nije pisanje teorijskih činjenica o podacima, nego kako zapravo podaci mogu postati poslovna prilika, odnosno kako se suvremena poslovanja mogu zasnivati na podacima te čak kako mogu generirati i nova poslovna zanimanja. Međutim, podatke je  u posljednjih nekoliko godina  „proslavio“ upravo termin Velikih podataka odnosno engl. Big data koji je do dan danas nedefiniran termin odnosno buzzword . Prema časopisu Fortune, do 2003. smo kreirali oko 5 eksabajta (1 eksabajt=1000 petabajta) digitalnih podataka. U 2011. smo tu količinu podataka kreirali u dva dana. Primjerice jedan Facebook dnevno generira oko 500 terabajta podataka i pohranjuje 30 milijardi dijeljenih informacija mjesečno. Možda zvuči još šokantnije da za otprilike 600 američkih dolara možemo kupiti tvrdi disk koji može pohraniti cijelu glazbu ikada stvorenu. Količina podataka koja se generira  iz dana u dan se sve više povećava i služi kao rudnik za podizanje novih poslovanja te redefiniranju postojećih.

Možda ne idemo za tim, ali jedna od najvećih IT tvrtki današnjice temelji svoje poslovanje  na velikoj količini podataka, a to je svima nam omiljena tražilica Google. Google je najbolji primjer tvrtke koja svoje poslovanje temelji na velikim podacima, pa tako podatke generirane od strane korisnika koriste za svoje proizvode kao što su Google AdWords (platforma za internet oglašavanje), Google Analytics (platforma za web analitiku). Ne smijemo zaboraviti društvene mreže poput Facebook-a, Twitter-a, Foursqure-a  i LinkedIn-a čija su poslovanja zasnovana na velikoj količini podataka. Sustavi preporuke u Foursquare-u, targetiranje plaćenih oglasa, opcija preporuke potencijalnih prijatelja i automatskog prepoznavanja lica na slikama kod Facebook-a ne bi bili mogući bez velike količine podataka koji korisnici generiraju i koje ove tvrtke pohranjuju u svojim data centrima. Pohranjivati i analizirati tolike količine podataka koje se mjere u petabajtima te u budućnosti u zetabajtima je bilo nemoguće ni zamisliti prije deset godina, međutim danas takva količina podataka se može jeftino pohranjivati i analizirati u realnom vremenu. To donekle moramo zahvaliti Google-u što je svojim komercijalnim patentima omogućio open source zajednici da izgradi ono što se danas zove Hadoop. Temeljen na pararelnoj obradi podataka (MapReduce) i distribuiranoj pohrani podataka (HDFS), Hadoop je open source rješenje koje je omogućilo pohranu i analizu onoga što se nekad zvalo junk podacima odnosno podacima nestrukturiranog ili polustrukturiranog oblika, dok su za Google ti „junk“ podaci bili i još jesu osnova njihovog pametnog poslovnog modela. Pod nestrukturirane  podatke mislimo na tekst, video i audio zapise, dok pod polustrukturirane podatke mislimo na podatke koji se različitom obradom mogu dovesti u strukturirani oblik, a to se ponajviše odnosi na podatke iz NoSQL bazi (Hbase,MongoDB) .

Big-Data-Landscape_v41

Vjerojatno najbolji primjer obrade i analize velike količine podataka iz retail poslovanja je Amazon. Tvrtka koja je na početku osuđena na propast zbog drugačijeg načina poslovanja, odnosno prodaje knjiga putem Interneta te tvrtka koja je kriva za raspad brick and mortar (pre)prodavača knjiga. Osim što imaju unosan posao u prodaji knjiga, Amazon se bacio i u prodaju tableta i e-čitača te onoga što nam je najzanimljivije i što je bio hype, a to je cloud poslovanje. Moramo priznati da Amazon Elastic Compute Cloud odnosno Amazon EC2 ima primat u cloud poslovanju te čak Facebook dio svojih podataka drži kod Amazona. Cloud poslovanje Amazona je uzrokovano “nespretnom” odlukom kupovanja servera zbog prevelike navale korisnika na Amazon tijekom blagdana, što se poslije pokazalo kao pun pogodak. Međutim, Amazon ima ono što druga online poslovanja do koju godinu prije nisu imala, a to je odlično izgrađen sustav preporuke . Sustav koji umjesto generalne ponude, stavlja potrošača i individualnu ponudu na prvo mjesto, a naravno sve zahvaljujući podacima koje je Amazon prikupljao od samih početaka. To se područje u računalnim znanostima zove strojno učenje (machine learning), gdje stroj (računalo) pomoću određenih algoritama (klasifikacije, klasterizacije) uči o podacima pojedine osobe ili grupe osoba, te na temelju njegovih prijašnjih kupovina daje najbolju preporuku za buduću kupnju. Naravno sustavi preporuke i strojno učenje više nisu toliki misterij te ih svako poduzeće koje ima dostupne podatke može koristiti u svom poslovanju.

Neka nova zanimanja

Uz eksponencijalni rast podataka, količina radnih mjesta vezanih uz analizu podataka također se rapidno povećava. Predviđa se da će do 2018. godine SAD-u nedostajati od 140 do 190 tisuća radnika sa dubokim analitičkim vještinama i 1.5 milijuna menadžera/analitičara koji znaju kako analizirati velike količine podataka kako bi donijeli efektivne odluke. Kako bi popunili ove praznine CIO-ovi (Chief Information Officers) se već natječu za radnike koji imaju jake matematičke vještine, izvrsnost rada sa bazama podataka, kao i ekspertno znanje u pronalasku i integraciji podataka te visoke poslovne tj. ekonomske vještine.

Većinom ovakav kadar zovu znanstvenicima podataka tj. data scientists. Vještine koje znanstvenik podataka mora imati su visoke matematičke, statističke i programerske vještine i uz to sve znanje iz poslovne domene  i visoke vještine komunikacije. Ovaj posao je prema Harvard Business Review-u proglašen najseksi poslom 21. stoljeća i „smrt“ za klasične statističare. Međutim kao što možete pretpostaviti, ovaj tip kadra koji posjeduje sve ove vještine je skoro nemoguće naći, stoga se sve više radi na formiranju timova znanstvenika podataka, gdje bi tim sačinjavali matematičari i statističari, programeri te netko tko odlično poznaje podatke te da pritom ima i poslovna znanja.

Prema knjizi/brošuri „Analyzing the Analyzers“ dolazimo do interesantnih podataka, te sve ljude koji se bave podacima dijelimo na: Data Businessperson, Data Creative, Data Developer, Data Reasearcher i na donjoj slici vidimo koje su to vještine koje posjeduju ovi tipovi analitičara podataka.

Inače formalno obrazovanje za znanstvenika podataka postoji na najcjenjenijim američkim (Berkeley) i nekim europskim sveučilištima. Što se tiče RH, ovakav oblik obrazovanja još nije na vidiku, jer je vidljivo da mi još nismo na toj razini da educiramo studente o važnosti podataka koje predstavljaju u različitim domenama, pa bilo to računarstvo, biologija ili ekonomija. Međutim to nije razlog da se ne prihvatimo ove discipline, jer na Internetu možemo naći veliku količinu znanja, pogotovo na sveprisutnoj Courseri gdje besplatno možemo učiti o analizi podataka, web inteligenciji, strojnom učenju te znanosti o podacima.

Capture

Tipovi znanstvenika podataka

Poslovanja na temelju “Velikih podataka” u Hrvatskoj

Što se tiče naših (ne)prilika, hrvatska IT industrija ima odlične proizvode temeljene isključivo na podacima. Još prije nešto više od pola godine suvlasnik tvrtke za društvene medije iStudio Tomislav Grubišić je na portalu rep.hr istaknuo  kako onaj tko se počne Hadoop-om i velikim podacima za 2-3 godine može imati firmu od 100 ljudi, jer već sad postoji enormna potreba za ljudima koji znaju raditi na Hadoopu. iStudio je Big Data iskoristio na način da je napravio alat Mediatoolkit koji nadzire sve portale na svijetu kako bi u pet minuta prepoznao promjene na njima i u njihovim kategorijama te nadzirao kako njihovi sadržaji (članci) kotiraju na društvenim mrežama.

Stoga smo za mišljenja o korištenju Velikih podataka u poslovanju pitali poduzeće iStudio koja je svoj alat Mediatoolkit razvila na velikoj količini podataka, te gospodina Oreščanina iz Poslovne inteligencije d.o.o., tvrtke koja se u portfoliu Big data bavi infrastrukturom i procesiranjem, od machine-to-machine i senzorskih podataka, preko obrade jezika do analitike. Nažalost od Anctu-a nismo dobili odgovor.

Capture

iStudio- Mediatoolkit

 

Na pitanje zašto su Big data tehnologije važne i što obuhvaćaju, iStudio nam je rekao da su važne primarno zbog spremanja ogromne količine podataka (vijesti) u bazu, analizu i dohvaćanje istih u realnom vremenu. Također, konvencionalne metode koje funkcioniraju na malenom skupu podataka nisu dovoljno brze i “moćne” za analizu podataka, računanje statistike i korištenje u algoritmima. Viđenje tvrtke Poslovne inteligencije d.o.o. da bi nešto trebalo spadati u Big Data područje treba uključivati rad s nestrukturiranim i polustrukturianim podacima, te procesiranje tih podataka na commodity hardveru u open source temeljnom okruženju (HDFS, Hbase, Hive) korištenjem Map Reduce logike. Naravno, na open source osnovu mogu se nadograditi i komercijalna softverska rješenja koja omogućavaju viši nivo apstrakcije razvoja. Ako se držimo te definicije, prvi korisnici su svakako tvrtke s najviše nestrukturiranih podataka – telekomunikacijski operateri.  Poslovna inteligencija d.o.o. već radi s oba najveća hrvatska operatera na Big Data projektima, prvenstveno u infrastrukturnom dijelu.

Iz iStudio-a su nam otkrili da se u Mediatoolkit-u ekstrakcija i analiza temelje na noSQL bazama koje su podložne lakšem re-indeksiranju, kao i zato što se zahtjevi iz dana u dan mijenjaju, pa je nužno imati bazu koja podržava laganu promjenu strukture. Također, operativni podaci za sustav (analizu i statistike) se moraju moći izračunati u realtimeu tako da je nužno određenu količinu podataka držati u RAM-u. Ako je primarni zahtjev Mediatoolkita taj da se sve mora odvijati u realnom vremenu, nemaju vremena za analizirati statistiku na zahtjev i ostaviti korisnika da čeka nekoliko sekundi/minuta/sati na rezultat, već moraju predvidjeti sve mogućnosti i dio analize i statistike prethodno računati kroz kontinuirane procese, tako da na zahtjev korisnika već imaju spreman odgovor (koji traje u granicama 5-200 milisekundi).

Poslovna inteligencija d.o.o. radi na razvoju vlastitog rješenja koje je dijelom financirano iz programa Poduzetnički impuls, koje će predstaviti na dvije konferencije u Londonu početkom studenog, a prva verzija bi trebala biti dostupna početkom sljedeće godine. Rješenje će omogućavati korištenje analitike velikih podataka kao servisa za manje i srednje tvrtke, bez potrebe za ulaganjem u infrastrukturu i tehnološka znanja. Također nude usluge custom razvoja Big Data rješenja za velike korisnike, bilo da se radi o razvoju na bazičnom nivou skriptiranja (Map reduce ili Pig), semantičkoj obradi teksta korištenjem open source platformi, te na obradi velikih količina podataka i integraciji s relacijskim izvorima podataka, primarno korištenjem komercijalnih platformi poput Informatica PowerCenter Big Data Edition.

Na pitanje postoje li nedostatak kadra u izradi aplikacija koje se temelje na tehnologijama velikih podataka iz iStudio-a su nam odgovorili da su programeri s vještinom u tehnologiji velikih podataka u oskudici, iz jednostavnog razloga što nije ni postojala potreba za njima, ali se ‘preodgajanjem’ IT sektora  sve se više vide koristi od velikih podataka i očekuje se porast broja programera s tim vještinama u budućnosti.

Također za kraj, nismo mogli završiti članak, a da ne pitamo o budućnosti znanstvenika podataka (data scientist) u RH. Poslovna inteligencija d.o.o. je prije mjesec dana prva u RH objavila natječaj za mjesto data scientista.  Gospodin Oreščanin nam je rekao da  ono što je od svega najbitnije je da njihov budući kolega bude zaista znanstvenik. Analitika velikih podataka je bitno drugačija od današnjeg pogleda na izvještavanje i analizu – o ovom području bitno je razumijevanje korelacija među različitim varijablama, relevantnosti pojedinih varijabli i vrijednosti, te vizualizacija takvih odnosa. Znanstvenik također treba imati kreativnost, znatiželju i spremnost na istraživanje – postavljanje i testiranje hipoteza, koje potvrđivanjem donose novu vrijednost i otkrivaju nove odnose i spoznaje.

Za kraj priče o „Velikim podacima“

U ovom članku smo u kratkim crtama objasnili što je  Big data, kako se mogu iskoristiti te koja ih velika/mala poduzeća koriste u svom svakodnevnom poslovanju. Od iStudio-a i Poslovne inteligencije smo dobili konkretne primjene u praksi, kako bismo dobili bolji pogled na to što nam velika količina podataka pruža. Jesu li veliki podaci sastavni dio i vašeg poslovanja ? Ako nisu. onda ih iskoristite i steknite konkurentsku prednost nad vašim konkurentima. Jesu li Veliki podaci hype ili realnost? To ostavljam vama na procjenu. 🙂