Prezentácia sa nahráva. Prosím počkajte

Prezentácia sa nahráva. Prosím počkajte

Vkladanie diakritiky s využitím štatistickej analýzy textu

Podobné prezentácie


Prezentácia na tému: "Vkladanie diakritiky s využitím štatistickej analýzy textu"— Prepis prezentácie:

1 Vkladanie diakritiky s využitím štatistickej analýzy textu
Matej Sabo Vyhľadávanie informácií 2010/2011

2 Opis problému Práca s databázou Vstup – text bez diakritiky
Výstup – text s diakritikou Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

3 Motivácia Užitočnosť programu (šetrenie času, námahy) Použitie v praxi
Forma experimentu

4 Prípad použitia

5 Popis dát Dve druhy databáz:
Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

6 Implementácia Java (Eclipse) -> multiplatformovosť
Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch: main – trieda Main gui – trieda používateľského rozhrania logic – ostatných 6 tried s hlavnou logikou programu

7 Zhodnotenie Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní:
Testovanie na článkoch Sme a texte diplomovej práce Úspešnosť správneho prekladu slova podľa databázy – 97,5% Ďalšie možnosti zlepšenia Nevýhody: Potreba databáz (20 MB) Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)

8 Ďakujem za pozornosť Matej Sabo


Stiahnuť ppt "Vkladanie diakritiky s využitím štatistickej analýzy textu"

Podobné prezentácie


Reklamy od Google