Vyhľadávanie informáci

Slides:



Advertisements
Podobné prezentácie
Vkladanie diakritiky s využitím štatistickej analýzy textu
Advertisements

Centrálny Dátový Archív
Osnova prednášky Synchronizácia v Jave
Abstrakt Mgr. Imrich IŠTVAN, PhD..
Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:
Meno a priezvisko učiteľa
Novinky na platforme Web of Science
OBJAVOVANIE VZOROV POHĽADU PRI NAVIGAČNÝCH ÚLOHÁCH NA WEBE
VEGA 1/0935/13 Vyhodnotenie výsledkov prieskumu 2015
ŠU Modernizácia Dávkových Agend (MoDA)
7., 8. Signalizácia realizovaná LED - diódou
Extrakcia informácií z medicínskych záznamov
Rozpoznávanie obrazcov šk.r
Intel procesor Lukáš Beď 4.A
Školiteľ: Ing. Helena Fidlerová, PhD.
MANAŽMENT ĽUDSKÝCH ZDROJOV
Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák
Úvod do jazyka C Algoritmizácia úloh.
Finančná matematika Postupnosti.
Základné pojmy spojené s BIOS
Národný projekt Elektronické služby MPSVR SR na úseku výkonu správy štátne sociálne dávky, sociálna pomoc a pomoc v hmotnej núdzi Ministerstvo práce,
SILVERGAS s.r.o. Bardejov
Učiteľ v novej epoche.
Ing. Jana Ďurišová Grafika pre web.
Databázové systémy.
Bloková schéma procesora
Výstupy a podnety zo sekcie Mládež a svet
Ako prezentovať prezentáciu?
Technická prezentácia
EU project guidelines Mgr. Mária Tunová
9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.
Manažér a jeho funkcie Predmet: Manažment športu – 2. prednáška
Ing. Alojz ANDROVIČ, PhD. – PhDr. Jana MATÚŠKOVÁ Bratislava, máj 2016
Tvorba projektu a prezentačné zručnosti
Testovanie štatistických hypotéz
Využitie informácií pri verejnej kontrole
SEKVENČNÁ ORGANIZÁCIA
Inštalácia Windows verzie
EBSCO Discovery Service ~ Jednoduché vyhľadávanie
Wrapper Suite Programmable Internet Information Retrieval based on HTML structure & contents Igor Berta, Andrej Janžo, Michal Jemala, Peter Kasan, Peter.
Komplexná technická starostlivosť o dopravnú techniku
Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.
Implementácia a zabezpečenie prevádzky systému ARL – spolupráca knižnice a firmy Dobrý den, vážení a milí, dovolte mi aby som Vam v mene svojom i v mene.
Analýza medicínskych dát na báze interaktívnej evolúcie
Ponuka DP pre informatikov - UPJŠ
Posudky.
Použitie počítačov v geografii (2)
Externé pamäťové médiá
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Grafický výstup - 2D help plot
Vplyv stavebných úprav na všeobecnú hodnotu bytu
Vyhľadávanie informácii
Rovnice a ich riešenia.
VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV
Testovanie štatistických hypotéz v programe Excel
Univerzita P. J. Šafárika, Košice
Univerzita P. J. Šafárika, Košice
Depth of Field Caustics Subsurface Scattering
TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC
Rozpoznávanie obrazcov a spracovanie obrazu
Kapowtech RoboSuite Team10.
Použitie počítačov v geografii (2)
Štatistika Martin Čuka 2010/ B.
Porucha transparentnej fasády so stanovením nákladov na opravu a výšky škody Juraj Nagy.
It’s All About the Table!
Magnetické a transportné vlastnosti zlúčenín La1-xAgx(Co0,03Mn0,97)O3
Umiestnenia benchmarkov Štruktúry súborov Použitie súborov
Diplomová práca Koncept testovacieho zariadenia na testovanie energetických strát synchro systému Obdobie/Periode 2019/2020 Cieľ práce/Objectives: Zameranie/Fields:
Rekonštrukcia podlahy v 8.A
Prepis prezentácie:

Vyhľadávanie informáci Semstrálny projekt Miroslav Vojtuš

Čo? Prečo? Parsovanie freebase databázy a získanie analytických informácií o extrahovaných faktoch Za účelom extrakcie informácii o témach v databáze pre ďalšiu analýzu. Zredukovanie obsahu za účelom indexácie.

Postup práce Spoznanie problémovej oblasti Zoznámenie sa s dátovou štruktúrou n-triplet rdf používanou na dupm dát z freebase Extrahovanie testovacíh dát z rozsiahlejšieho súboru. Vytvorenie jednoduchého parsera, ktorý som otestoval pomocou Junit. Nainštalovanie inštancie Hadoop

Postup práce Implementovanie Map a Reduce jobu. Spustenie nad testovacími dátamy. Porovnanie s výstupmi základného parsera. Dodatočne som implementoval štatistiky nad výstupným Avro súborom.

Technické parametre implementácie Použité balíky: Avro-1.7.7 Avro-mapreduce-1.7.7 Hadoop client 2.4.0 Appache commons lang 3 Junit 4.11 Testovacia platforma Hortonworks Sandbox: Hadoop 2.4.0 Avro-v1.7.4

Problémy pri riešeni Spojazdnenie Hadoop inštancie na Windows stroji Nastavenie hortownworks virtuálneho stroja bolo problematické koli nastaveniam ip a záhadnému spúšťaniu. V niektorých prípadoch nenabehne datanode alebo namenode. Extrakcia softwéru do spustiteľného jar súboru. Pri použití hadoop jar príkazu, inštancia hadoopu na hostovi neuprednostnuje avro-v1.7.7 pred avro avro-v1.7.4

Štruktúra RDF dumpu Dáta ako N tripplet <subjekt> <predikát> <objekt> Subjektom je adresa v doméne freebase.com. Topiky majú prefix "http://rdf.freebase.com/ns/m." za ním nasleduje id topiku. Predikát má prefix "http://rdf.freebase.com/ns/" za ním nasleduje kľúč samotného predikátu, identifikátor atribútu freebase objektu. Pre nás sú zaujímavé: "common.topic.alias" - alias "type.object.name" - titulka "type.object.type" – kategória

Štruktúra RDF dumpu Predikát má prefix "http://rdf.freebase.com/ns/" za ním nasleduje kľúč samotného predikátu identifikátor atribútu freebase objektu. Pre nás sú zaujímavé: "common.topic.alias" - alias "type.object.name" - titulka "type.object.type" – kategória

Parsovanie Použitý RegEx pattern: <http:\\/\\/rdf\\.freebase\\.com\\/ns\\/m\\.([^>]+)>\\s+<http:\\/\\/rdf\\.fre ebase\\.com\\/ns\\/("+StringUtils.join(predicates, "|")+")>(.+)\\. RegEx patterny pre parsovanie obsahu predikátu: "common.topic.alias" - \"([^>]+)\"@en "type.object.name" - \"([^>]+)\"@en "type.object.type" - <http:\\/\\/rdf\\.freebase\\.com\\/ns\\/([^>]+)>

Map ReduCe job Map job: Reduce job: Sparsuje RDF N-Tripplet interpretáciu do itenej dátovej štruktúry Zjednotenie urobí na základe vyparsovaného ID, ktoré je unikáte naprieč témamy Reduce job: Zozbierané id prevedie do vyššej dátovej štruktýry štruktúry zhodnej s avro schémou: { "namespace": "sk.stuba.fiit.freebase.hadoop", "type": "record", "name": "TopicAvro", "fields": [ {"name": "title", "type": "string"}, {"name": "types", "type" : { "type": "array", "items" : "string" } }, {"name": "alts", "type" : { "type": "array", "items" : "string"} } ] }

Analytické dáta Analýza prebieha osobitne mimo Map Reduce job-ov. Je to lineárne spracovanie Avro výstupu z Reduce Jobu. Nad celou bázou: Počet topikov (s titulkou): 43269499 Priemerný počet kategúrií na topik: 3.844 Min/max kategórií: 0/142 Priemerný počet aliasov: 0.074 Min/max aliasov: 0/479 Trvanie celého procesu nad dumpom celej db: 4h    22m  48s

Vyhodnotenie Parsovanie zbehne v reálnom čase aj na jednom stroji. Pri použití viacerých strojov očakávam radikálne zrýchlenie.