Vkladanie diakritiky s využitím štatistickej analýzy textu

Slides:



Advertisements
Podobné prezentácie
Vyhľadávanie informáci
Advertisements

Centrálny Dátový Archív
Abstrakt Mgr. Imrich IŠTVAN, PhD..
Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:
ČITATEĽSKÁ GRAMOTNOSŤ
Internet a www.
Peter Kajaba Operačné Systémy.
Novinky na platforme Web of Science
Dedičnosť a polymorfizmus
Riziká informačných technológií
Rozpoznávanie obrazcov šk.r
Školiteľ: Ing. Helena Fidlerová, PhD.
Bity a bajty.
Riešenie krízových situácií
Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi
Návrh projektu Téma: Zlepšovanie odbornej grafickej pripravenosti žiakov Oblasť vzdelávania: Práca s PC Cieľová skupina: rokov (3 - 4 ročník)
Market – trh Ing – dej, činnosť
Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák
Podmienky súladu žiadosti s princípom 3D
Ako môže manažér efektívne zdielať zamestnanecké dáta s personalistom a zapojiť sa tak do HR procesov? Peter Vilem.
VÁPNIK.
Rešeršovanie vo Virtua OPAC
Autor: Patrik Januška Vedúci práce: Ing. Eduard Kuric
Maturita 2013.
Kam na strednú školu ? Kde hľadať informácie o strednej škole?
2. oddelenie školského internátu
Web of Science V PRAXI Eniko Toth Szasz
Základné nástroje manažérstva kvality (Kontrolná tabuľka a histogram)
Databázové systémy.
Technická prezentácia
EU project guidelines Mgr. Mária Tunová
Plán na zvyšovanie spokojnosti zákazníkov
Modelovanie kontextov s účelom objavenia skrytých kontextov
9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.
Ing. Alojz ANDROVIČ, PhD. – PhDr. Jana MATÚŠKOVÁ Bratislava, máj 2016
Národný projekt Zvyšovanie transparentnosti neziskového sektora a kvality služieb poskytovaných neziskovými organizáciami cez mechanizmus akreditácie.
EBSCO Discovery Service ~ Jednoduché vyhľadávanie
VIRTUÁLNÍ HOSPITACE Biológia Osmtické javy v bunke
stavebný a znalecký softvér
Implementácia a zabezpečenie prevádzky systému ARL – spolupráca knižnice a firmy Dobrý den, vážení a milí, dovolte mi aby som Vam v mene svojom i v mene.
Analýza medicínskych dát na báze interaktívnej evolúcie
Dopady aktívnych opatrení trhu práce na zvyšovanie zamestnanosti
Ponuka DP pre informatikov - UPJŠ
Posudky.
Použitie počítačov v geografii (2)
Stredná odborná škola - Szakközépiskola Rákocziho 23, Kráľovský Chlmec
Aktualizačné vzdelávanie učiteľov cvičných firiem
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Biosyntéza a metabolizmus bielkovín (Chémia - 3.ročník)
Téma: Nástroje na tvorbu prezentácie
Informačné a komunikačné technológie v knižnično-informačných systémoch Nadežda Andrejčíková.
Rozloženie nadpisu Podtitul.
Prognóza trhu práce - skúsenosť z Českej republiky
Ročníková práca – Adam Guláš (IV.D, 2014/2015)
Víta vás nový PowerPoint
Tvorivosť a podnikavosť
(Vieme) Kam kráča svet vedeckého publikovania?
Vyhľadávanie informácii
VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV
Testovanie štatistických hypotéz v programe Excel
Viktor Olejár Univerzita P. J. Šafárika v Košiciach
Formátovanie tabuliek
TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC
Štandardy v procese spracovania bibliografických informácií i u nás.
34 Filip Hudzík, Martin Durkáč, Karina Cimborová,
Slovenská poľnohospodárska univerzita v Nitre
Použitie počítačov v geografii (2)
Štatistika Martin Čuka 2010/ B.
PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc.
Umiestnenia benchmarkov Štruktúry súborov Použitie súborov
Prepis prezentácie:

Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011

Opis problému Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

Motivácia Užitočnosť programu (šetrenie času, námahy) Použitie v praxi Forma experimentu

Prípad použitia

Popis dát Dve druhy databáz: Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

Implementácia Java (Eclipse) -> multiplatformovosť Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch: main – trieda Main gui – trieda používateľského rozhrania logic – ostatných 6 tried s hlavnou logikou programu

Zhodnotenie Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní: Testovanie na článkoch Sme a texte diplomovej práce Úspešnosť správneho prekladu slova podľa databázy – 97,5% Ďalšie možnosti zlepšenia Nevýhody: Potreba databáz (20 MB) Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)

Ďakujem za pozornosť Matej Sabo