ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/
OSNOVA: Reprezentácia a použitie rozhodovacích stromov Indukcia rozhodovacích stromov Algoritmus ID3 Algoritmus ID5R Algoritmus C4.5 Pomerové kritérium zisku Spojité atribúty Neznáme hodnoty atribútov Orezávanie rozhodovacích stromov Technika malého okna Zoskupovanie diskrétnych hodnôt
REPREZENTÁCIA A POUŽITIE ROZHODOVACÍCH STROMOV - RS RS veľmi názorne ilustruje proces učenia RS reprezentuje rozhodovaciu procedúru acyklická grafová štruktúra – strom uzly reprezentujú triedu alebo testovací atribút hrany reprezentujú hodnoty testovacieho atribútu Použitie: TP vyhovujúci testom na ceste od koreňa po listový uzol je zaradený do triedy daného listového uzla
INDUKCIA ROZHOD. STROMOV Aplikuje prístup „rozdeľuj a panuj” UK: perfektná klasifikácia – každý podpriestor obsahuje iba príklady jednej triedy (nie perfektná – 80%) Všeobecný algooritmus: Pre každý podpriestor splnené UK koniec Inak Zvoľ podpriestor obsahujúci príklady rôznych tried Zvoľ preň ešte nepoužitý testovací atribút TA Rozdeľ ho na ďalšie podpriestory podľa hodnôt TA
Algoritmus ID3 (Iterative Dichotomizer) Ross Quinlan, 1979 – perfektná klasifikácia UK – podpriestor obsahuje iba TP jednej triedy generuje minimálny strom neinkrementálne Výber TA – Shannonova teória informácie: Nie je odolný voči zašumeným údajom Generuje minimálny strom za predpokladu splnenia: podmienky nekontradikčnosti–neprotirečivosti TP podmienky neredundantnosti TP podmienky vzájomnej nezávislosti atribútov
Algoritmus ID5R Inductive Dichotomizer 5 Recursive Je inkrementálnou modifikáciou ID3 Po každom novom príklade iba modifikuje existujúci strom negeneruje ho celý odznova Maximalizuje informačný zisk V každom uzle RS uchováva všetky informácie potrebné na overenie vhodnosti TA po zmene pomerov Po zmene TA reštrukturalizuje celý podstrom
Algoritmus C4.5 Ross Quinlan, 1993 Ide o modifikáciu algoritmu ID3 Neinkrementálna indukcia Atribúty – nominálne/diskrétne aj reálne/spojité Zavádza pomerové kritérium zisku Spracováva spojité atribúty Dokáže spracovať neznáme hodnoty atribútov
POMEROVÉ KRITÉRIUM ZISKU ID3 uprednostňuje výber testovacích atribútov s väčším počtom hodnôt C4.5 tento nedostatok odstraňuje normalizáciou informačného zisku, teda pomerovou entrópiou ktorá: narastá s rastúcim počtom vetiev vytvára novú prehľadávaciu preferenciu vytvára rozmerovo menší RS
SPOJITÉ ATRIBÚTY TP sú usporiadané podľa hodnôt spojitého atribútu Nájdeme prahovú hodnotu pre každú susednú dvojicu hodnôt spojitého atribútu, ktorá rozdelí TP na dve množiny Prahová hodnota sa určí ako aritmetický priemer daných dvoch susedných hodnôt Existuje m-1 rozdelení pri m hodnotách atribútu Pre rozdelenia sa vypočíta (pomerový) informačný zisk Vyberie sa jediné rozdelenie (prahová hodnota) s maximálnym informačným ziskom Priestor TP sa rozdelí na dva podpriestory podľa zvoleného prahu
NEZNÁME HODNOTY ATRIBÚTOV Dôvody: zašumenie, nedbanlivosť, nedostupnosť Riešenie: 1.Odfiltrovanie príkladov s chýbajúcimi hodnotami 2.Doplnenie najčastejšie sa vyskytujúcou hodnotou C4.5 koriguje hodnoty už počas generovania RS K výpočtu H(S,A) sa uvažujú iba príklady so známymi hodnotami atribútu Modifikovaný informačný zisk a pomerová entrópia:
OREZÁVANIE RS „Overfitting“ – preučenie RS Taký RS často obsahuje listy s jediným TP Taký RS správne klasifikuje trénovacie príklady ale nesprávne klasifikuje testovacie príklady Taký RS je vhodné orezať na optimálnu hĺbku RS – horný odhad dĺžky vetiev stromu Techniky orezávania: RS sa najprv generuje z trénovacej množiny a následne sa orezáva pomocou testovacej množiny Metódy: Redukcia chyby Orezávanie cena-komplexnosť RS sa orezáva počas generovania RS Metódy: Pesimistické orezávanie – predikuje chyby poduzlov, vhodná pri nedostatku TP
WINDOWING Windowing, resp. technika malého okna Rieši problém nedostatočnej operačnej pamäte Okno – podmnožina trénovacích príkladov použitá na generovanie RS Vygenerovaným stromom sa klasifikujú príklady mimo okna Chybne klasifikované príklady sa zaradia do okna To opakujeme kým nie sú všetky príklady mimo okna správne klasifikované alebo okno nepresiahne preddefinovanú veľkosť alebo sa už neznižuje chyba klasifikácie Vhodné pri redundancii príkladov Predlžuje celkový čas spracovania Neočakávaným prínosom je vyššia presnosť
DISKRÉTNYCH ATRIBÚTOV ZOSKUPOVANIE HODNôT DISKRÉTNYCH ATRIBÚTOV Ak má niektorý atribút priveľa hodnôt je neprehľadný Hodnoty atribútu diskretizujeme Je vhodné zaviesť menej ako osem diskrétnych hodnôt Metódy: Binárne rozdelenie s dvoma výslednými podmnožinami Určenie najlepšieho z možných rozdelení množiny hodnôt Heuristický postup: Inicializačné rozdelenie na jednoprvkové množiny Všetky možné dvojice hodnôt sa ohodnotia skórovacou funkciou a vyberie sa najlepšia Zlučovanie rekurzívne postupuje k dvom výsledným množinám Zo všetkých rozdelení sa vyberie to s max. ohodnotením