Primjena metoda rudarenja podataka na primjeru procjene kreditnog rizika – dio 1.

Rudarenje podataka

Primjena metoda rudarenja podataka na primjeru procjene kreditnog rizika – dio 1.

Nakon što sam u članku “Rudarenje podataka i CRISP metodologija” objasnio što je rudarenje podataka, kako koristiti CRISP metodologiju za projekte rudarenje podataka i koje algoritme odabrati za određeni (poslovni) problem, danas ću sva teorijska naklapanja iz članka primijeniti na određenom problemu.

Tema mog završnog rada iz kolegija Poslovna inteligencija na Ekonomskom fakultetu u Splitu je bila “Primjena metoda rudarenja podataka na primjeru kreditnog rizika” stoga ću vam kroz kratki primjer pokazati kako izgleda primjena CRISP metodologije na određenom projektu rudarenja podataka.

Prije nego što počnem pisati, moram napomenuti kako su podaci vjerojatno izmišljeni, ali pokazuju kako otprilike izgledaju procijene kreditnog rizika.

Jedan od glavnih rizika kojem se kreditne institucije izlažu u svom poslovanju je kreditni rizik. Njega definiramo kao rizik gubitka zbog neispunjavanja dužnikove novčane obveze prema kreditnoj instituciji. Pojednostavljeno rečeno, rizik da dužnik neće vratiti posuđena sredstva, da će ih djelomično vratiti, ili da će ih vratiti u duljem roku od inicijalno ugovorenog.

Prije zaključenja ugovara o odobrenju plasmana, kreditne institucije dužne su: procijeniti dužnikovu kreditnu sposobnost te kvalitetu instrumenta osiguranja svojih potraživanja, kao i revidirati iste tijekom trajanja ugovornog odnosa.

Cilj istraživanja

Cilj istraživanja je istražiti kako pojedinačne varijable koje su zapisane u bazama podataka banke mogu biti korisne pri procjenjivanju kreditnog rizika, kada banka daje kredit nekoj fizičkoj ili pravnoj osobi osobi. Varijable se odnose na imovinsko stanje primatelja kreditelja, te njegov kreditni rezultat kako bi ocijenili da li primatelj kredita rizičan ili nije. Kako bi na temelju podataka predvidjeli koji je primatelj kredita rizičan ili nije koristio sam metode rudarenje podataka na tri različita alata (SPSS Modeler, KNIME, RapidMiner). Cijeli rad se zasniva na CRISP (Cross Industry Standard Process for Data Mining) metodologiji.

Razumijevanje poslovanja

Kao što smo naveo u cilju istraživanja, cilj poslovnog subjekta je na temelju podataka koje posjeduje u bazama podataka, predvidjeti kreditni rizik potencijalnog primatelja klijenta na temelju povijesnih podataka. Drugi cilj poslovanja je klasificirati svoje postojeće i potencijalne klijente u segmente prema različitim varijablama putem algoritama klasteriranja, kako bi mogli na efikasniji način razumijeti svoje postojeće i potencijalne klijente i pripremiti različite pakete pri davanju kredita.

Razumijevanje podataka

Izvor podataka za procjenu kreditnog rizika je freelance.com, gdje je bio zadatak na povijesnim podacima o korisnicima (training baza) i njihovim kreditnim rizicima predvidjeti kreditni rizik na score ili test bazi. Training i score baza se sastoje od devet varijabli, te od 667 osoba koje osoba koje apliciraju za kredit kod training baze i 203 osobe koje apliciraju za kredit kod score baze. Cilj nam je predvidjeti varijablu Credit Risk koja je reprezentant kreditnog rizika na temelju nezavisnih varijabli.

Kao što sam prije napisao, baza podataka u Excelu se sastoji od devet varijabli i to redom :

  • Applicant ID – ID osobe koja uzima kredit
  • Late payments – plaćanja u zaostatku
  • Month in jobs – broj mjeseci u poslu
  • Debt income ratio – udio duga u primanjima
  • Loan Amount – iznos potencijalnog kredita
  • Liquid assets – tekuća imovina
  • Num credit lines – broj kreditnih linija
  • Credit score – iznos kreditnog rezultata
  • Credit risk – rizik davanja kredita osobi koja aplicira za kredit

slika1

 

Slika 1. Training baza korisnika i njihovog kreditnog rizika

Iz donje slike možemo vidjeti da se naša target varijabla sastoji od pet vrijednosti (Very Low, Low, Moderate, High, Do Not Lend) koji pokazuje razinu rizika kredita. Također vidimo da najviše ima kredita niskog kreditnog rizika, a najviše visokog kreditnog rizika.

Untitled

Slika 2. Distribucija varijable kreditnog rizika

Priprema podataka

S obzirom da baza podataka nije imala nedostajuće vrijednosti ili anomalije (outliers), nije trebalo naknadno čistiti bazu podataka, što nije slučaj u rudarenju podataka, jer je poznato da se većina vremena (80% vremena) potroši na pročišćavanje baze. U istraživanju je varijabla Credit_Risk (Kreditni rizik) target varijabla tj. varijabla koju želimo predvidjeti, dok sve ostale varijable služe kao input za predviđanje ove varijable.

U nastavku…

U drugom dijelu članka ću pisati o algoritmima koje sam koristio kako bi procijenio kreditni rizik te njihovoj točnosti, interpretaciji rezultata i samoj etičnosti rudarenja podataka kod procijene kreditnog rizika.