Čarolija loših podataka

Skladištenje podataka

Čarolija loših podataka

Svi znamo za smiješnu rating agenciju iz SAD-a pod imenom Standard & Poor’s po svojim prekrasno točnim ocjenama i izračunima. Jedan od prelijepih primjera njihove igre je kad su morali smanjiti dug SAD-a za 2.1 trilijun$, ne zbog toga što se ekonomija SAD-a oporavila već što su se oni “malo” preračunali u svojim originalnim kalkulacijama. Imamo primjer u Australiji od tvrtke GS1 (izrađuju identifikacijske sustave- barkodovi itd.) koji su izradili izvješće u kojem su došli do zaključka da loši podaci koštaju australsku maloprodaju 675 milijuna $ u 5 g. Ne mora se raditi samo o ekonomiji, imate primjera svugdje. NBC je tako platio testnoj publici da ocijeni bolje rangirane emisije lošije, što se na kraju otkrilo. U tom skandalu je npr. emisija Seinfeld bila ocijenjena lošije što nema apsolutno nikakve veze sa stvarnošću.

Gledajuću primjera sve više i više pronalazimo da se ovo događa zbog 2 slučaja : Garbage in, Garbage out i zbog loše interpretacije podataka. Dođemo do zaključka da ne postoje loši podaci već samo loše modeliranje. Ok, možda i postoje, ali ih ja nikako ne bi zvao „loši“ podaci. Svi su oni prekrasni u svojoj srži baš kao i ljudi, ali su se negdje na putu malo pogubili. Svi se oni, gotovo svi, mogu popraviti samo je pitanje koliko nam treba vremena i da li nam se isplati toliko igrati s njima (pravilo 80:20 – 80 % vremena obično ode na ove prljave poslove). Po meni je itekako isplativo kada se zna da kvaliteta podataka  može povećati prihode i do  66% i da je upravo loša kvaliteta razlog za odbijanje BI/analitičkih projekata u 46% slučajeva. Također, bolje je imati i loše podatke nego nikakve podatke.

Ako pitate analitičare koja im je najveća boljka obično će svi reći podaci. Sve od samih izvora, dostavljanja, ali najslađi dio im je naravno upravo kvaliteta. Zašto ? Pa ima li išta više frustrirajuće od naizgled uzaludne potrage za blagom unutar prljavih, izmiješanih, nestrukturiranih i napose bolnih podataka. To zna biti toliko frustrirajuće da to obično završi povratkom nazad prema izvoru iako podatke već imaju oni će krenuti ispočetka. Možda je glavna utjeha ta što znamo da i ostali imaju jednako loše podatke kao i mi, jer loša kvaliteta se nije samo pojavila niotkud (iako u tom trenutku pomislimo da su se svi okomili kontra nas) već je stvorena. Isto kao kad moj cimer ostavi suđe i kaže da će ih sutra oprati te za par dana dobijemo novu koloniju bakterija u stanu 🙂 . Poanta je ako ignoriramo loše podatke stvorit ćemo crne rupe nepouzdanih informacija. Mi smo ti zbog kojih loši podaci postoje, jer smo se sjetili da bi ih bilo super imati i malo analizirati, a mogli smo jednostavno stati s mirom (ah ti ljudi). Nitko ne voli čistiti, ali svi se sjetimo odraditi ono zimsko ili proljetno ili već neko čišćenje kad tad kao neka vrsta generalke. Isto tako je i s podacima, gdje ta generalna čišćenja čiste samo simptome, a ne uzroke.

Nažalost, u tome nam može pomoći samo redovna briga oko naših podataka ili ćemo u suprotnom trpjeti dodatne troškove, neefikasnost i hrpu frustracija. Caka je u tome da trebate kreirati kulturu koja cijeni standardizirane, efikasne informacije i ponovno iskoristive informacije. Možemo mi svi na loše podatke gledati kao na tehnološki problem, ali zapravo se radi o kulturološkom problemu. Upravo ova ponovna iskoristivost, efikasnost i najvažnije kvaliteta proizlaze iz popravljanja problema u samom korijenu, a ne tako da samo liječimo simptome u stilu moderne medicine. Bitno je ovo sve ubaciti u našu kulturu kako bi postalo jednostavno dio našeg svakodnevnog posla (naizgled pomalo teško, ali stepenica po stepenica i eto nas na vrhu). Kad pričamo o ovoj temi tehnologija je bitna, ali bitna je i kultura koju tako često volimo zaboraviti. Ako imamo jedno bez drugoga dobili smo recept za neefikasnost i nepotrebno utrošen trud. Nemojmo biti kao kolege iz farmaceutske industrije pa ćemo mi liječiti simptome. Hajmo se mi držati one stare :

Praestat cautela quam medela – bolje spriječiti nego liječiti.