Vkladanie diakritiky s využitím štatistickej analýzy textu

Slides:

Advertisements

Podobné prezentácie

Vyhľadávanie informáci

Advertisements

Centrálny Dátový Archív

Abstrakt Mgr. Imrich IŠTVAN, PhD..

Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:

ČITATEĽSKÁ GRAMOTNOSŤ

Internet a www.

Peter Kajaba Operačné Systémy.

Novinky na platforme Web of Science

Dedičnosť a polymorfizmus

Riziká informačných technológií

Rozpoznávanie obrazcov šk.r

Školiteľ: Ing. Helena Fidlerová, PhD.

Riešenie krízových situácií

Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi

Návrh projektu Téma: Zlepšovanie odbornej grafickej pripravenosti žiakov Oblasť vzdelávania: Práca s PC Cieľová skupina: rokov (3 - 4 ročník)

Market – trh Ing – dej, činnosť

Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák

Podmienky súladu žiadosti s princípom 3D

Ako môže manažér efektívne zdielať zamestnanecké dáta s personalistom a zapojiť sa tak do HR procesov? Peter Vilem.

Rešeršovanie vo Virtua OPAC

Autor: Patrik Januška Vedúci práce: Ing. Eduard Kuric

Kam na strednú školu ? Kde hľadať informácie o strednej škole?

2. oddelenie školského internátu

Web of Science V PRAXI Eniko Toth Szasz

Základné nástroje manažérstva kvality (Kontrolná tabuľka a histogram)

Databázové systémy.

Technická prezentácia

EU project guidelines Mgr. Mária Tunová

Plán na zvyšovanie spokojnosti zákazníkov

Modelovanie kontextov s účelom objavenia skrytých kontextov

9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.

Ing. Alojz ANDROVIČ, PhD. – PhDr. Jana MATÚŠKOVÁ Bratislava, máj 2016

Národný projekt Zvyšovanie transparentnosti neziskového sektora a kvality služieb poskytovaných neziskovými organizáciami cez mechanizmus akreditácie.

EBSCO Discovery Service ~ Jednoduché vyhľadávanie

VIRTUÁLNÍ HOSPITACE Biológia Osmtické javy v bunke

stavebný a znalecký softvér

Implementácia a zabezpečenie prevádzky systému ARL – spolupráca knižnice a firmy Dobrý den, vážení a milí, dovolte mi aby som Vam v mene svojom i v mene.

Analýza medicínskych dát na báze interaktívnej evolúcie

Dopady aktívnych opatrení trhu práce na zvyšovanie zamestnanosti

Ponuka DP pre informatikov - UPJŠ

Použitie počítačov v geografii (2)

Stredná odborná škola - Szakközépiskola Rákocziho 23, Kráľovský Chlmec

Aktualizačné vzdelávanie učiteľov cvičných firiem

Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele

Biosyntéza a metabolizmus bielkovín (Chémia - 3.ročník)

Téma: Nástroje na tvorbu prezentácie

Informačné a komunikačné technológie v knižnično-informačných systémoch Nadežda Andrejčíková.

Rozloženie nadpisu Podtitul.

Prognóza trhu práce - skúsenosť z Českej republiky

Ročníková práca – Adam Guláš (IV.D, 2014/2015)

Víta vás nový PowerPoint

Tvorivosť a podnikavosť

(Vieme) Kam kráča svet vedeckého publikovania?

Vyhľadávanie informácii

VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV

Testovanie štatistických hypotéz v programe Excel

Viktor Olejár Univerzita P. J. Šafárika v Košiciach

Formátovanie tabuliek

TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC

Štandardy v procese spracovania bibliografických informácií i u nás.

34 Filip Hudzík, Martin Durkáč, Karina Cimborová,

Slovenská poľnohospodárska univerzita v Nitre

Použitie počítačov v geografii (2)

Štatistika Martin Čuka 2010/ B.

PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc.

Umiestnenia benchmarkov Štruktúry súborov Použitie súborov

Prepis prezentácie:

Vkladanie diakritiky s využitím štatistickej analýzy textu Matej Sabo Vyhľadávanie informácií 2010/2011

Opis problému Práca s databázou Vstup – text bez diakritiky Výstup – text s diakritikou Využitie štatistickej analýzy textov -> „naučenie sa ako vkladať diakritiku“ Studenti sa zoznamia so zakladnymi pojmami z oblasti vyhladavania a ziskavania informacii z internetu (information retrieval). Dozvedia sa ake su zakladne modely pre vyhladavanie a ziskavanie informacii, ako sa da hodnotit uspesnost, ake su techniky indexovania a vyhladavania ako... Študenti sa zoznámia so základnými pojmami z oblasti vyhľadávania a získavania informácii z internetu (information retrieval). Dozvedia sa aké sú základné modely pre vyhľadávanie a získavanie informácií, ako sa dá hodnotiť úspešnosť, aké sú techniky indexovania a vyhľadávania ako

Motivácia Užitočnosť programu (šetrenie času, námahy) Použitie v praxi Forma experimentu

Prípad použitia

Popis dát Dve druhy databáz: Zoznam všetkých slov (dva txt súbory o veľkosti cca 11,5 MB). Tvar databázy: Slovo bez diakritiky a alternatívy s diakritikou Napr. spat spať späť špať špát Databáza vytvorená štatistickou analýzou (viacero txt súborov). Tvar databázy: Názov súbora – [analyzované_slovo].txt. Obsah súbora – alternatívy písania diakritiky slova nasledované slovami okolia, ktoré sa pri nich vyskytovali v analyzovaných textoch

Implementácia Java (Eclipse) -> multiplatformovosť Prevažne práca so súbormi a string-ami Aplikácia s GUI (využitie awt, swing) Jednoduché ovládanie Kód – 8 tried v 3 balíkoch: main – trieda Main gui – trieda používateľského rozhrania logic – ostatných 6 tried s hlavnou logikou programu

Zhodnotenie Dobrá použiteľnosť programu Vysoká úspešnosť v testovaní: Testovanie na článkoch Sme a texte diplomovej práce Úspešnosť správneho prekladu slova podľa databázy – 97,5% Ďalšie možnosti zlepšenia Nevýhody: Potreba databáz (20 MB) Dlhšie trvanie pre väčšie súbory (asi minúta pri 50 stranách)

Ďakujem za pozornosť Matej Sabo