Prezentácia sa nahráva. Prosím počkajte

Prezentácia sa nahráva. Prosím počkajte

ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.

Podobné prezentácie


Prezentácia na tému: "ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc."— Prepis prezentácie:

1 ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.
people.tuke.sk/kristina.machova/

2 OSNOVA: Reprezentácia a použitie rozhodovacích stromov
Indukcia rozhodovacích stromov Algoritmus ID3 Algoritmus ID5R Algoritmus C4.5 Pomerové kritérium zisku Spojité atribúty Neznáme hodnoty atribútov Orezávanie rozhodovacích stromov Technika malého okna Zoskupovanie diskrétnych hodnôt

3 REPREZENTÁCIA A POUŽITIE ROZHODOVACÍCH STROMOV - RS
RS veľmi názorne ilustruje proces učenia RS reprezentuje rozhodovaciu procedúru acyklická grafová štruktúra – strom uzly reprezentujú triedu alebo testovací atribút hrany reprezentujú hodnoty testovacieho atribútu Použitie: TP vyhovujúci testom na ceste od koreňa po listový uzol je zaradený do triedy daného listového uzla

4 INDUKCIA ROZHOD. STROMOV
Aplikuje prístup „rozdeľuj a panuj” UK: perfektná klasifikácia – každý podpriestor obsahuje iba príklady jednej triedy (nie perfektná – 80%) Všeobecný algooritmus: Pre každý podpriestor splnené UK  koniec Inak Zvoľ podpriestor obsahujúci príklady rôznych tried Zvoľ preň ešte nepoužitý testovací atribút TA Rozdeľ ho na ďalšie podpriestory podľa hodnôt TA

5 Algoritmus ID3 (Iterative Dichotomizer)
Ross Quinlan, 1979 – perfektná klasifikácia UK – podpriestor obsahuje iba TP jednej triedy generuje minimálny strom neinkrementálne Výber TA – Shannonova teória informácie: Nie je odolný voči zašumeným údajom Generuje minimálny strom za predpokladu splnenia: podmienky nekontradikčnosti–neprotirečivosti TP podmienky neredundantnosti TP podmienky vzájomnej nezávislosti atribútov

6 Algoritmus ID5R Inductive Dichotomizer 5 Recursive
Je inkrementálnou modifikáciou ID3 Po každom novom príklade iba modifikuje existujúci strom negeneruje ho celý odznova Maximalizuje informačný zisk V každom uzle RS uchováva všetky informácie potrebné na overenie vhodnosti TA po zmene pomerov Po zmene TA reštrukturalizuje celý podstrom

7 Algoritmus C4.5 Ross Quinlan, 1993 Ide o modifikáciu algoritmu ID3
Neinkrementálna indukcia Atribúty – nominálne/diskrétne aj reálne/spojité Zavádza pomerové kritérium zisku Spracováva spojité atribúty Dokáže spracovať neznáme hodnoty atribútov

8 POMEROVÉ KRITÉRIUM ZISKU
ID3 uprednostňuje výber testovacích atribútov s väčším počtom hodnôt C4.5 tento nedostatok odstraňuje normalizáciou informačného zisku, teda pomerovou entrópiou ktorá: narastá s rastúcim počtom vetiev vytvára novú prehľadávaciu preferenciu vytvára rozmerovo menší RS

9 SPOJITÉ ATRIBÚTY TP sú usporiadané podľa hodnôt spojitého atribútu
Nájdeme prahovú hodnotu pre každú susednú dvojicu hodnôt spojitého atribútu, ktorá rozdelí TP na dve množiny Prahová hodnota sa určí ako aritmetický priemer daných dvoch susedných hodnôt Existuje m-1 rozdelení pri m hodnotách atribútu Pre rozdelenia sa vypočíta (pomerový) informačný zisk Vyberie sa jediné rozdelenie (prahová hodnota) s maximálnym informačným ziskom Priestor TP sa rozdelí na dva podpriestory podľa zvoleného prahu

10 NEZNÁME HODNOTY ATRIBÚTOV
Dôvody: zašumenie, nedbanlivosť, nedostupnosť Riešenie: 1.Odfiltrovanie príkladov s chýbajúcimi hodnotami 2.Doplnenie najčastejšie sa vyskytujúcou hodnotou C4.5 koriguje hodnoty už počas generovania RS K výpočtu H(S,A) sa uvažujú iba príklady so známymi hodnotami atribútu Modifikovaný informačný zisk a pomerová entrópia:

11 OREZÁVANIE RS „Overfitting“ – preučenie RS
Taký RS často obsahuje listy s jediným TP Taký RS správne klasifikuje trénovacie príklady ale nesprávne klasifikuje testovacie príklady Taký RS je vhodné orezať na optimálnu hĺbku RS – horný odhad dĺžky vetiev stromu Techniky orezávania: RS sa najprv generuje z trénovacej množiny a následne sa orezáva pomocou testovacej množiny Metódy: Redukcia chyby Orezávanie cena-komplexnosť RS sa orezáva počas generovania RS Metódy: Pesimistické orezávanie – predikuje chyby poduzlov, vhodná pri nedostatku TP

12 WINDOWING Windowing, resp. technika malého okna
Rieši problém nedostatočnej operačnej pamäte Okno – podmnožina trénovacích príkladov použitá na generovanie RS Vygenerovaným stromom sa klasifikujú príklady mimo okna Chybne klasifikované príklady sa zaradia do okna To opakujeme kým nie sú všetky príklady mimo okna správne klasifikované alebo okno nepresiahne preddefinovanú veľkosť alebo sa už neznižuje chyba klasifikácie Vhodné pri redundancii príkladov Predlžuje celkový čas spracovania Neočakávaným prínosom je vyššia presnosť

13 DISKRÉTNYCH ATRIBÚTOV
ZOSKUPOVANIE HODNôT DISKRÉTNYCH ATRIBÚTOV Ak má niektorý atribút priveľa hodnôt je neprehľadný Hodnoty atribútu diskretizujeme Je vhodné zaviesť menej ako osem diskrétnych hodnôt Metódy: Binárne rozdelenie s dvoma výslednými podmnožinami Určenie najlepšieho z možných rozdelení množiny hodnôt Heuristický postup: Inicializačné rozdelenie na jednoprvkové množiny Všetky možné dvojice hodnôt sa ohodnotia skórovacou funkciou a vyberie sa najlepšia Zlučovanie rekurzívne postupuje k dvom výsledným množinám Zo všetkých rozdelení sa vyberie to s max. ohodnotením


Stiahnuť ppt "ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc."

Podobné prezentácie


Reklamy od Google