Profil stručnjaka za rudarenje podataka

Rudarenje podataka

Profil stručnjaka za rudarenje podataka

Pišu: Dr. Mirjana Pejić Bach, Dr. Mladen Varga, Ekonomski fakultet, Katedra za informatiku

Prije svega svrha je ovog članka prezentirati istraživanje o oglasima vezanim uz ponudu poslova za stručnjake rudarenja podataka objavljenim na web portalu KD Nuggets. Ovaj portal ima veoma dobru reputaciju među stručnjacima rudarenja podataka te stoga smatramo da objavljene ponude poslova objektivno predstavljaju stanje na tom području. Samo istraživanje je provedeno u razdoblju od svibnja do prosinca 2004. godine na uzorku od 118 oglasa. Na temelju rezultata istraživanja stvorili smo reprezentativan profil stručnjaka rudarenja podataka, a ti su rezultati također poslužili i u svrhu profiliranja kolegija vezanih uz rudarenje podataka koji se izvode ili planiraju izvoditi na Ekonomskom fakultetu u Zagrebu.

Rudarenje podataka

Za bolje razumjevanje istraživanja i samog područja rudarenja podataka prvo je potrebno objasniti sam termin, tj. njegovo značenje. Rudarenje podataka (eng. data mininig) možemo definirati kao proces pronalaženja novog i potencijalno korisnog znanja iz podataka [3], odnosno kao otkrivanje ili “rudarenje” znanja iz velike količine podataka [1]. Bolji bi izraz možda bio “rudarenje znanja iz podataka”, gdje se rudarenje odnosi na ono što se pronalazi kao rezultat tog procesa. Postoji također još nekoliko termina koji imaju slično ili pomalo različito značenje, ali najpopularniji je svakako “otkrivanje znanju u bazama podataka”.

Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike različitih disciplina kao što su baze podataka, statistika i umjetna inteligencija. Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i moćne sustave baza podataka kakve danas poznajemo. Taj razvoj omogućio je bilježenje i sakupljanje ogromnih količina podataka što je neizbježno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobivanja korisnih informacija i znanja. Današnja informacijska tehnologija omogućila nam je bilježenje svake aktivnosti u obliku digitalnih podataka, a količina sakupljenih podataka u mnogim bazama mjeri se u gigabajtima ili terabajtima. Ogromne baze podataka bogate su podacima, ali i siromašne informacijama koje su skrivene u pohranjenim podacima. Upravo je rudarenje podataka to koje pomaže otkriti važne informacije i znanje utkano u podatke, uvelike pridonoseći donošenju odluka, poslovanju i znanosti.

Proces rudarenja podataka sastoji se od više faza koje jedna osoba samostalno ne može izvršiti. Te faze, odnosno zadatke, možemo promatrati iz tri perspektive. Prva je problemska perspektiva koja je važna na samom početku i kraju rudarenja podataka. Sastoji se od odabira problema, njegova definiranja te procjene i primjene znanja. Osoba koja obavlja ove zadatke može se jednostavno nazvati korisnik. Druga perspektiva je podatkovna i obuhvaća sve zadatke vezane uz pripremu podataka za njihovo rudarenje, a obavlja je informatičar. Metodološka perspektiva, kao treća i posljednja, sastoji se od svih zadataka vezanih uz analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije rezultata. Osoba zadužena za te zadatke je stručnjak rudarenja podataka (eng. data miner).

Rezultati istraživanja

Naše istraživanje pokazalo je da većina poduzeća koja traže stručnjaka rudarenja podataka dolaze iz IT sektora (43%), marketinga (19%) te iz bankarskog sektora i osiguranja (17%).

1

Položaj u poduzeću na koji se zapošljavaju nije jedinstven, no najčešće je to menadžer (20%), stručnjak rudarenja podataka (16%), statističar i/ili operacijski istraživač (12%), marketinški analitičar (10%) te softverski inžinjer/arhitekt (10%).

2

Podjednaki broj poduzeća želi zaposliti osobe sa diplomom (40%) i magisterijem (40%). Prilično veliki broj poslodavaca traži i doktorat (20%). Vezano uz godine radnog iskustva rezultati pokazuju da su jednako traženi oni sa manje od 5 godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% slučajeva zahtjeva se više od 10 godina iskustva.

3

 

Zadaci unutar procesa rudarenja podataka koji se očekuju od zaposlenika su najčešće prezentiranje rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%). Znanje klasifikacijske metode rudarenja podataka je najtraženije (18%). Metode predviđanja i statističke tehnike su jednako zastupljene sa po 8%.

4

Znanje softvera koje je potrebno imati najviše odlazi na SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifični softver za rudarenje podataka (primjerice Clementine) se vrlo rijetko spominje. Dodatne vještine koje se zahtjevaju su analitičke vještine (42%), konzalting (19%), projektni menadžment (16%), profiliranje korisnika (15%) i iskustvo u području (15%).

5

Kada uzmemo u obzir sve ovdje navedeno dolazimo do profila stručnjaka rudarenja podataka. To su osobe koje su najvjerovatnije zaposlene u IT sektoru, mnogi od njih rade na položaju menadžera i njihov posao je najčešće vezan uz prezentaciju rezultata i razvoj modela za rudarenje podataka. Vjerojatno se služe klasifikacijskom metodom, a od njih se zahtjeva i posjedovanje analitičkih vještina.

Reference:

1. Han, J., Kamber, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, San Francisco, 2001.

2. Pyle, D. Business Modelling and Data Mining. Morgan Kaufmann Publishers, San Francisco, 2003.

3. www.kdnuggets.com [2005-10-02]

(M.P.B, M.V.)