Kvaliteta podataka i 3.5C

Skladištenje podataka

Kvaliteta podataka i 3.5C

U ovom članku ćemo predstaviti jedan od mogućih pogleda na kvalitetu podataka i nazvat ćemo ga 3.5 C . U ekonomiji imate 4C, Big Data ima 4V i mi smo mogli staviti 4C, ali s obzirom da oduvijek želimo biti posebni mi smo se odlučili za 3.5C. Prije nego što Vam otkrijemo sadržaj naših C-ova, kratak uvod. Mnoge naše odluke u osobnom i profesionalnom životu kreću s upitom. Taj upit može biti u svrhu nekog istraživačkog projekta, poslovnog predviđanja ili nešto iz osobnog života. Postoje trenutci kad smo zadovoljni s našim izvorom podataka, a postoje i oni kad smo malo manje zadovoljni. No, kako znati kada se brinuti oko kvalitete podataka ? Uglavnom se ljudi oslanjaju na intuiciju prilikom uvida u kvalitetu podataka te na iskustvo. No, problem intuicije je što nekad može faliti (ali nekad može i pogoditi) i smatra se da se ona zasniva na prošlom iskustvu. Ako je tako onda imamo problem prilikom ulaska u sasvim nove situacije koje dotada nismo sreli. U pokušaju upravljanja kvalitetom podataka te stjecanjem saznanja o njima predstavit ćemo naša 3.5 C s početka koji su tek jedan od pogleda na cjelokupni problem.

  1. Complete  – Da li se ovdje nalazi sve što bi se trebalo nalaziti ?
  2. Coherent : Da li se svi podaci slažu ili kako bi Ameri rekli „add up“ ?
  3. Correct: Da li se radi o pravim tj. realnim vrijednostima ?
  4. aCcountable: Da li možemo pratiti tijek podataka ?

Možemo odmah primjetiti da onih 0.5 dolazi upravo zbog ovog zadnjeg (accountable) i da se ove kategorije mogu i preklapati na nekim mjestima ili da se jedan ili dva C-a uopće ne mogu primijeniti na neke situacije koje ste susreli u životu. Moguće je i da osobe koje zanima prikupljanje i pohrana podataka imaju drukčiji pogled i na riječ complete od osobe koja provodi analizu ili donosi odluke. Bilo kako bilo ne radi se o univerzalnoj metodologiji već se pokušava napraviti početna točka oko koje bi mogli razviti sami svoje politike i procedure kvalitete podataka.

Complete

Kad bi ovdje rekli da se radi o datasetu koji ima sve, radilo bi se o simplifikaciji problematike čime bi stvorili samo dodatna pitanja: Što je to sve ? Da li prikupiti sve što dođe pod ruku ili naučiti kako razlikovati što je bitno, a što ne ? S toga bi najbolje ovo C bilo svesti pod pitanje : Da li imam sve podatke koji vode prema odgovoru na moje istraživačko pitanje ? Naravno ni na ovo pitanje nije lagano odgovoriti, jer se često prvo kreće od podataka kako bi se odgovorilo na pitanje i verfikacijom rezultata bi se utvrdilo da li se radi o dovoljnim podacima za naše pitanje. U ovom slučaju se najbolje voditi onom uzrečicom iz teorije igara : look ahead and reason back. Ukoliko znamo svoju tvrtku, možemo gledati prema naprijed i pretpostaviti koja bi nas pitanja mogla očekivati tj. na koja bi trebali odgovoriti i zatim se vratiti unatrag i pronaći prave podatke za odgovor na ta pitanja. Ovdje se također treba voditi onom uzrečicom : disk is cheap i podaci su novo zlato (ušteda na disku za pohranu podataka bi bila kao prosljeđivanje novca kako bi izbjegli problem gdje da taj novac stavimo)

Coherent

Pod pretpostavkom da su naši podaci ostavrili prvi C i da su sada Complete krećemo na sljedeći C i to Coherent gdje trebamo odgovoriti na pitanje : Da li svi podaci imaju smisla ? Znači gledamo da li su svi recordi našeg dataseta povezani konzistentno međusobno  i da li slijede internu logiku dataseta. Naizgleda ovo pitanje može izgledati suvišno, jer relacijske baze podataka su dizajnirane kako bi riješili ovo, ali  to nije nužno tako. Što ako se radi o document database ili drugim NoSQL formama ili što ako su podaci toliko prljavi da im se ne može automatski provjeriti integritet, ali su i dalje dobri za određene aplikacije.

data quality

Correct

Nakon prolaska kroz prošla dva C-a još nije vrijeme za analizu već moramo odgovoriti na pitanje : da li su naši podaci dovoljno točni za ono što želimo postići ?  Nužno je odrediti koji su podaci važni za validaciju, razumijeti koliko naših podataka treba biti točno, da li moramo provjeriti sve recorde ili provesti neku vrstu uzorkovanja, odlučiti što učiniti s netočnim podacima. Za ovo zadnje trebamo vidjeti da li ih je moguće popraviti ili možemo i bez njih. Također ih možemo odvojiti i vidjeti da li se model ponaša isto na točnim i netočnim podacima što može signalizirati da se taj dio podataka može “sigurno” odvojiti iz dataseta.

aCcountable

Ovdje odgovaramo na pitanje tko je odgovoran za naše podatke ? Može izgledati kao čudno pitanje s obzirom da pričamo o kvaliteti podataka, ali može uistinu utjecati na nju. Kako bi objasnili možda je najbolje pratiti tijek podataka. Tijek podataka obično prati uzorak : acquire, modify, use. Acquire bi bilo prikupljanje podataka iz izvora, modify bi bilo čišćenje, obogaćivanje podataka, a use bi bilo korištenje u svrhu donošenja internih odluka ili za distribuciju eksternim klijentima.

U knjizi Bad Data se spominje primjer SCM koji prati isti ovaj tijek (primjer hrane i pića). Ističe se važnost upravo aCcountabilitya u slučaju da dođe do bolesti osoba zbog hrane, gdje možemo pratiti tijek podataka i doći do farme koja ju je prouzročila. Također, kvarovi na automobilu mogu biti problem te im se može pronaći uzrok na temelju tijeka podataka i povratka na proizvodnu liniju. Bitno je prepoznati  da smo mi u ovom slučaju odgovorni za te podatke, ali kao i naši izvori te izvori tih izvora i tako dalje. Ovdje  je bitno pratiti podatke naših izvora podataka, pohraniti sve, napraviti reviziju tvrtke, pratiti tijek podataka i pratiti pristup podacima. Važnost raste pogotovo donošenjem novih zakona, pa tako u SAD-u ukoliko kupac pita tvrtku da mu da sve podatke koje prikupljaju o njemu i s kim su ih podijelili ili prodali, tvrtka je dužna mu omogućiti ih.

Kvaliteta podataka je veoma bitna i stjecanje navike da mislimo o kvaliteti prije početka pravog posla ne samo da dovodi do uštede novca već i pruža bolje razumijevanje naših mogućnosti i ograničenja. Poželjno je odvojiti provjeru kvalitete podataka od glavnih zadataka kad je god to praktično. Potrebno je sve dokumentirati i prikazati koji podaci nisu zadovoljili naša 3.5 C . I za kraj ću citirati autora poglavlja knjige Bad Data :

We hope you found this chapter reasonably complete, coherent, and correct. If not, the authors are the only ones accountable.

Analiza kvalitete podataka je nužan prvi korak u nastojanju da steknemo uvide u naše podatke. Radi se o prljavom poslu koji često uzima više vremena od same analize, ali na to gledajte kao na dobro utrošeno vrijeme i koje će vam se sigurno isplatiti.

Izvor naslovne slike : www.colourbox.com