Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011
Opis problému Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako
Motivácia Užitočnosť programu (šetrenie času, námahy) Použitie v praxi Forma experimentu
Prípad použitia
Popis dát Dve druhy databáz: Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch
Implementácia Java (Eclipse) -> multiplatformovosť Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch: main – trieda Main gui – trieda používateľského rozhrania logic – ostatných 6 tried s hlavnou logikou programu
Zhodnotenie Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní: Testovanie na článkoch Sme a texte diplomovej práce Úspešnosť správneho prekladu slova podľa databázy – 97,5% Ďalšie možnosti zlepšenia Nevýhody: Potreba databáz (20 MB) Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)
Ďakujem za pozornosť Matej Sabo