ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.

Slides:



Advertisements
Podobné prezentácie
Osnova prednášky Synchronizácia v Jave
Advertisements

Editovanie nových záznamov Modifikácia zadaní
ZNALOSTNÉ SYSTÉMY prednáška č. 13
Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:
Fixačný filter Implementácia I-VT
Komplexné služby pre váš web
Extrakcia informácií z medicínskych záznamov
Dynamické programovanie
Rozpoznávanie obrazcov šk.r
Makroekonomický jav „...a aby nám žiaci neutiekli...“
Intel procesor Lukáš Beď 4.A
ŠTATISTICKÁ INDUKCIA.
Štatistika a spracovanie údajov
Školiteľ: Ing. Helena Fidlerová, PhD.
Lineárna rovnica ax + b = 0.
Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi
Rekurzívne funkcie.
ZNALOSTNÉ SYSTÉMY prednáška č. 6
Lineárna nerovnica.
Úvod do jazyka C Algoritmizácia úloh.
Sústavy lineárnych rovníc
Otestuj sa Kvízové otázky 3. ročník.
Ing. Jana Ďurišová Grafika pre web.
Kritériá vyhodnocovania investičných projektov
Základné nástroje manažérstva kvality (Kontrolná tabuľka a histogram)
Binárne Relácie Szendreyová Alžbeta.
Integrované riešenia EPM (Enterprise Project Management)
Databázové systémy.
Bloková schéma procesora
Technická prezentácia
Testovanie štatistických hypotéz
S Blissom vždy s presným časom!
SEKVENČNÁ ORGANIZÁCIA
EBSCO Discovery Service ~ Jednoduché vyhľadávanie
(Digitálny prezentačný materiál)
B. Bystrica – Badín 2014 konferencia o pastorácii rodín vo farnosti
Komplexná technická starostlivosť o dopravnú techniku
Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.
stavebný a znalecký softvér
Dopady aktívnych opatrení trhu práce na zvyšovanie zamestnanosti
Opakovanie sekvencia postupnosť príkazov (príkaz je povel, ktorý počítač alebo iné zariadenie pozná a dokáže vykonať) vykonávanú v takom poradí, v akom.
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Y = log x y = x2 + 3x + 7 y = x Funkcia y = 3x+ 5 y = sin x y = x + 4.
Bregmanove divergencie Využitie indexovacích štruktúr pre efektívne podobnostné vyhľadávanie Lukáš Holecy Bregmanove divergencie.
ZŠ Park Angelinum Košice
Komplexná technická starostlivosť o dopravnú techniku
optimálne programovanie
Vplyv stavebných úprav na všeobecnú hodnotu bytu
Simplexová metóda Algoritmus primárne simplexovej metódy možno ideovo vyjadriť nasledovným spôsobom: Stanovenie bázického prípustného riešenia (bázy s.
Rovnice a ich riešenia.
VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV
Testovanie štatistických hypotéz v programe Excel
Umelé neurónové siete Márius Šajgalík.
Formátovanie tabuliek
Problém výberu portfólia
TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC
Štandardy v procese spracovania bibliografických informácií i u nás.
Vzájomná poloha priamok v rovine
Doc. Ing. Antošová Naďa, PhD. Ing. Nagy Juraj, PhD.
PhDr. Tatiana ARBE, OEMP ÚM STU
Kvantitatívny prieskum TV BA
Rozpoznávanie obrazcov a spracovanie obrazu
Vyjadrovacie prostriedky v štatistike
OBJEM KVÁDRA A KOCKY.
Sopka z fyzikálneho hľadiska
Obrazová klasifikácia 1
PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc.
Teórie ekonomického rastu Ing. Magdaléna Hajtmanková
Nepriama úmernosť – tabuľka, rovnica a graf
sústava dvoch rovníc o dvoch neznámych
Prepis prezentácie:

ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/

OSNOVA: Reprezentácia a použitie rozhodovacích stromov Indukcia rozhodovacích stromov Algoritmus ID3 Algoritmus ID5R Algoritmus C4.5 Pomerové kritérium zisku Spojité atribúty Neznáme hodnoty atribútov Orezávanie rozhodovacích stromov Technika malého okna Zoskupovanie diskrétnych hodnôt

REPREZENTÁCIA A POUŽITIE ROZHODOVACÍCH STROMOV - RS RS veľmi názorne ilustruje proces učenia RS reprezentuje rozhodovaciu procedúru acyklická grafová štruktúra – strom uzly reprezentujú triedu alebo testovací atribút hrany reprezentujú hodnoty testovacieho atribútu Použitie: TP vyhovujúci testom na ceste od koreňa po listový uzol je zaradený do triedy daného listového uzla

INDUKCIA ROZHOD. STROMOV Aplikuje prístup „rozdeľuj a panuj” UK: perfektná klasifikácia – každý podpriestor obsahuje iba príklady jednej triedy (nie perfektná – 80%) Všeobecný algooritmus: Pre každý podpriestor splnené UK  koniec Inak Zvoľ podpriestor obsahujúci príklady rôznych tried Zvoľ preň ešte nepoužitý testovací atribút TA Rozdeľ ho na ďalšie podpriestory podľa hodnôt TA

Algoritmus ID3 (Iterative Dichotomizer) Ross Quinlan, 1979 – perfektná klasifikácia UK – podpriestor obsahuje iba TP jednej triedy generuje minimálny strom neinkrementálne Výber TA – Shannonova teória informácie: Nie je odolný voči zašumeným údajom Generuje minimálny strom za predpokladu splnenia: podmienky nekontradikčnosti–neprotirečivosti TP podmienky neredundantnosti TP podmienky vzájomnej nezávislosti atribútov

Algoritmus ID5R Inductive Dichotomizer 5 Recursive Je inkrementálnou modifikáciou ID3 Po každom novom príklade iba modifikuje existujúci strom negeneruje ho celý odznova Maximalizuje informačný zisk V každom uzle RS uchováva všetky informácie potrebné na overenie vhodnosti TA po zmene pomerov Po zmene TA reštrukturalizuje celý podstrom

Algoritmus C4.5 Ross Quinlan, 1993 Ide o modifikáciu algoritmu ID3 Neinkrementálna indukcia Atribúty – nominálne/diskrétne aj reálne/spojité Zavádza pomerové kritérium zisku Spracováva spojité atribúty Dokáže spracovať neznáme hodnoty atribútov

POMEROVÉ KRITÉRIUM ZISKU ID3 uprednostňuje výber testovacích atribútov s väčším počtom hodnôt C4.5 tento nedostatok odstraňuje normalizáciou informačného zisku, teda pomerovou entrópiou ktorá: narastá s rastúcim počtom vetiev vytvára novú prehľadávaciu preferenciu vytvára rozmerovo menší RS

SPOJITÉ ATRIBÚTY TP sú usporiadané podľa hodnôt spojitého atribútu Nájdeme prahovú hodnotu pre každú susednú dvojicu hodnôt spojitého atribútu, ktorá rozdelí TP na dve množiny Prahová hodnota sa určí ako aritmetický priemer daných dvoch susedných hodnôt Existuje m-1 rozdelení pri m hodnotách atribútu Pre rozdelenia sa vypočíta (pomerový) informačný zisk Vyberie sa jediné rozdelenie (prahová hodnota) s maximálnym informačným ziskom Priestor TP sa rozdelí na dva podpriestory podľa zvoleného prahu

NEZNÁME HODNOTY ATRIBÚTOV Dôvody: zašumenie, nedbanlivosť, nedostupnosť Riešenie: 1.Odfiltrovanie príkladov s chýbajúcimi hodnotami 2.Doplnenie najčastejšie sa vyskytujúcou hodnotou C4.5 koriguje hodnoty už počas generovania RS K výpočtu H(S,A) sa uvažujú iba príklady so známymi hodnotami atribútu Modifikovaný informačný zisk a pomerová entrópia:

OREZÁVANIE RS „Overfitting“ – preučenie RS Taký RS často obsahuje listy s jediným TP Taký RS správne klasifikuje trénovacie príklady ale nesprávne klasifikuje testovacie príklady Taký RS je vhodné orezať na optimálnu hĺbku RS – horný odhad dĺžky vetiev stromu Techniky orezávania: RS sa najprv generuje z trénovacej množiny a následne sa orezáva pomocou testovacej množiny Metódy: Redukcia chyby Orezávanie cena-komplexnosť RS sa orezáva počas generovania RS Metódy: Pesimistické orezávanie – predikuje chyby poduzlov, vhodná pri nedostatku TP

WINDOWING Windowing, resp. technika malého okna Rieši problém nedostatočnej operačnej pamäte Okno – podmnožina trénovacích príkladov použitá na generovanie RS Vygenerovaným stromom sa klasifikujú príklady mimo okna Chybne klasifikované príklady sa zaradia do okna To opakujeme kým nie sú všetky príklady mimo okna správne klasifikované alebo okno nepresiahne preddefinovanú veľkosť alebo sa už neznižuje chyba klasifikácie Vhodné pri redundancii príkladov Predlžuje celkový čas spracovania Neočakávaným prínosom je vyššia presnosť

DISKRÉTNYCH ATRIBÚTOV ZOSKUPOVANIE HODNôT DISKRÉTNYCH ATRIBÚTOV Ak má niektorý atribút priveľa hodnôt je neprehľadný Hodnoty atribútu diskretizujeme Je vhodné zaviesť menej ako osem diskrétnych hodnôt Metódy: Binárne rozdelenie s dvoma výslednými podmnožinami Určenie najlepšieho z možných rozdelení množiny hodnôt Heuristický postup: Inicializačné rozdelenie na jednoprvkové množiny Všetky možné dvojice hodnôt sa ohodnotia skórovacou funkciou a vyberie sa najlepšia Zlučovanie rekurzívne postupuje k dvom výsledným množinám Zo všetkých rozdelení sa vyberie to s max. ohodnotením