PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc. kristina.machova@tuke.sk people.tuke.sk/kristina.machova/
OSNOVA: Charakteristika pravdepodobnostného pojmu Reprezentácia a použitie pravdepodobnostných pojmov Bayes-ov teorém Naivný Bayes-ov klasifikátor Indukcia naivného Bayes-ovho klasifikátora
PRAVDEPODOBNOSTNÝM POPISOM CHARAKTERISTIKA PRAVDEPODOBNOSTNÝM POPISOM Predstavujú flexibilnejšiu reprezentáciu znalostí Je spojená s Bayesovým klasifikátorom Je použiteľný v širokom spektre klasifikačných problémov Predpoklad vzájomnej nezávislosti atribútov
REPREZENTÁCIA A POUŽITIE PRAVDEPODOBNOSTNÝM POPISOM P(ck)…pravdepodobnosť k-tej triedy P(vi/ck)…podmienená pravdepodobnosť výskytu hodnoty vi atribútu j v príklade I patriacom do triedy ck P(ck/I)…pravdepodobnosť ck podmienená výskytom príkladu I (pravdepodobnosť, že príklad I patrí do triedy ck) Použitie: Nový TP je klasifikovaný do triedy, ktorej pravdepodnobnosť podmienená hodnotami atribútov v danom príklade je najvyššia.
BAYESOV TEORÉM Pravdepodobnosť javu je suma podmienených pravdepodobností daného javu inými javmi, ktoré tvoria úplný súbor. Ak I je konjunkcia vi hodnôt, potom p(I) môžeme nahradiť nasledovne:
NAIVNÝ BAYESOV KLASIFIKÁTOR Predpoklad vzájomnej nezávislosti atribútov nám dovolí nasledovnú substitúciu:
NAIVNÝ BAYESOV KLASIFIKÁTOR Naivný preto, lebo predpokladá nezávislosť atribútov, ktorá vo väčšine reálnych aplikácií neplatí. Napriek tomu je to užitočná metóda v mnohých aplikáciách s uspokojivou presnosťou. Iným spôsobom sa s neplatnosťou podmienky nezávislosti atribútov vyrovnávajú Bayesove siete, ktoré pracujú s nezávislosťou podmnožín atribútov.
BAYESOVHO KLASIFIKÁTORA INDUKCIA NAIVNÉHO BAYESOVHO KLASIFIKÁTORA Klasifikovať príklad I do triedy ck môžeme, ak vieme vypočítať p(ck/I) pre každú triedu. Indukcia naivného Bayesovho klasifikátora spočíva v určení frekvencií výskytov hodnôt atribútov a tried v trénovacích príkladoch. To predstavuje určenie pravdepodobností p(ck) pre každú triedu ck p(vi/ck) pre každý pár trieda-hodnota atribútu
BAYESOVHO KLASIKÁTORA INDUKCIA NAIVNÉHO BAYESOVHO KLASIKÁTORA Ak sa vyskytne nulová pravdepodobnosť vo výpočte, ktorý je v čitateli reprezentovaný násobením, prenesie sa do výsledku. Riešením je nahradenie nulovej hodnoty nejakým veľmi malým číslom, napríklad 1/n, kde n je počet trénovacích príkladov Pozitívom pravdepodobnostného popisu je veľmi jednoduchá klasifikácia. Negatívom je predpoklad nezávislosti atribútov. NBK sa s úspechom používa na kategorizáciu dokumentov.