Vyhľadávanie informáci

Slides:

Advertisements

Podobné prezentácie

Vkladanie diakritiky s využitím štatistickej analýzy textu

Advertisements

Centrálny Dátový Archív

Osnova prednášky Synchronizácia v Jave

Abstrakt Mgr. Imrich IŠTVAN, PhD..

Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:

Meno a priezvisko učiteľa

Novinky na platforme Web of Science

OBJAVOVANIE VZOROV POHĽADU PRI NAVIGAČNÝCH ÚLOHÁCH NA WEBE

VEGA 1/0935/13 Vyhodnotenie výsledkov prieskumu 2015

ŠU Modernizácia Dávkových Agend (MoDA)

7., 8. Signalizácia realizovaná LED - diódou

Extrakcia informácií z medicínskych záznamov

Rozpoznávanie obrazcov šk.r

Intel procesor Lukáš Beď 4.A

Školiteľ: Ing. Helena Fidlerová, PhD.

MANAŽMENT ĽUDSKÝCH ZDROJOV

Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák

Úvod do jazyka C Algoritmizácia úloh.

Finančná matematika Postupnosti.

Základné pojmy spojené s BIOS

Národný projekt Elektronické služby MPSVR SR na úseku výkonu správy štátne sociálne dávky, sociálna pomoc a pomoc v hmotnej núdzi Ministerstvo práce,

SILVERGAS s.r.o. Bardejov

Učiteľ v novej epoche.

Ing. Jana Ďurišová Grafika pre web.

Databázové systémy.

Bloková schéma procesora

Výstupy a podnety zo sekcie Mládež a svet

Ako prezentovať prezentáciu?

Technická prezentácia

EU project guidelines Mgr. Mária Tunová

9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.

Manažér a jeho funkcie Predmet: Manažment športu – 2. prednáška

Ing. Alojz ANDROVIČ, PhD. – PhDr. Jana MATÚŠKOVÁ Bratislava, máj 2016

Tvorba projektu a prezentačné zručnosti

Testovanie štatistických hypotéz

Využitie informácií pri verejnej kontrole

SEKVENČNÁ ORGANIZÁCIA

Inštalácia Windows verzie

EBSCO Discovery Service ~ Jednoduché vyhľadávanie

Wrapper Suite Programmable Internet Information Retrieval based on HTML structure & contents Igor Berta, Andrej Janžo, Michal Jemala, Peter Kasan, Peter.

Komplexná technická starostlivosť o dopravnú techniku

Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.

Implementácia a zabezpečenie prevádzky systému ARL – spolupráca knižnice a firmy Dobrý den, vážení a milí, dovolte mi aby som Vam v mene svojom i v mene.

Analýza medicínskych dát na báze interaktívnej evolúcie

Ponuka DP pre informatikov - UPJŠ

Použitie počítačov v geografii (2)

Externé pamäťové médiá

Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele

Grafický výstup - 2D help plot

Vplyv stavebných úprav na všeobecnú hodnotu bytu

Vyhľadávanie informácii

Rovnice a ich riešenia.

VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV

Testovanie štatistických hypotéz v programe Excel

Univerzita P. J. Šafárika, Košice

Univerzita P. J. Šafárika, Košice

Depth of Field Caustics Subsurface Scattering

TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC

Rozpoznávanie obrazcov a spracovanie obrazu

Kapowtech RoboSuite Team10.

Použitie počítačov v geografii (2)

Štatistika Martin Čuka 2010/ B.

Porucha transparentnej fasády so stanovením nákladov na opravu a výšky škody Juraj Nagy.

It’s All About the Table!

Magnetické a transportné vlastnosti zlúčenín La1-xAgx(Co0,03Mn0,97)O3

Umiestnenia benchmarkov Štruktúry súborov Použitie súborov

Diplomová práca Koncept testovacieho zariadenia na testovanie energetických strát synchro systému Obdobie/Periode 2019/2020 Cieľ práce/Objectives: Zameranie/Fields:

Rekonštrukcia podlahy v 8.A

Prepis prezentácie:

Vyhľadávanie informáci Semstrálny projekt Miroslav Vojtuš

Čo? Prečo? Parsovanie freebase databázy a získanie analytických informácií o extrahovaných faktoch Za účelom extrakcie informácii o témach v databáze pre ďalšiu analýzu. Zredukovanie obsahu za účelom indexácie.

Postup práce Spoznanie problémovej oblasti Zoznámenie sa s dátovou štruktúrou n-triplet rdf používanou na dupm dát z freebase Extrahovanie testovacíh dát z rozsiahlejšieho súboru. Vytvorenie jednoduchého parsera, ktorý som otestoval pomocou Junit. Nainštalovanie inštancie Hadoop

Postup práce Implementovanie Map a Reduce jobu. Spustenie nad testovacími dátamy. Porovnanie s výstupmi základného parsera. Dodatočne som implementoval štatistiky nad výstupným Avro súborom.

Technické parametre implementácie Použité balíky: Avro-1.7.7 Avro-mapreduce-1.7.7 Hadoop client 2.4.0 Appache commons lang 3 Junit 4.11 Testovacia platforma Hortonworks Sandbox: Hadoop 2.4.0 Avro-v1.7.4

Problémy pri riešeni Spojazdnenie Hadoop inštancie na Windows stroji Nastavenie hortownworks virtuálneho stroja bolo problematické koli nastaveniam ip a záhadnému spúšťaniu. V niektorých prípadoch nenabehne datanode alebo namenode. Extrakcia softwéru do spustiteľného jar súboru. Pri použití hadoop jar príkazu, inštancia hadoopu na hostovi neuprednostnuje avro-v1.7.7 pred avro avro-v1.7.4

Štruktúra RDF dumpu Dáta ako N tripplet <subjekt> <predikát> <objekt> Subjektom je adresa v doméne freebase.com. Topiky majú prefix "http://rdf.freebase.com/ns/m." za ním nasleduje id topiku. Predikát má prefix "http://rdf.freebase.com/ns/" za ním nasleduje kľúč samotného predikátu, identifikátor atribútu freebase objektu. Pre nás sú zaujímavé: "common.topic.alias" - alias "type.object.name" - titulka "type.object.type" – kategória

Štruktúra RDF dumpu Predikát má prefix "http://rdf.freebase.com/ns/" za ním nasleduje kľúč samotného predikátu identifikátor atribútu freebase objektu. Pre nás sú zaujímavé: "common.topic.alias" - alias "type.object.name" - titulka "type.object.type" – kategória

Parsovanie Použitý RegEx pattern: <http:\\/\\/rdf\\.freebase\\.com\\/ns\\/m\\.([^>]+)>\\s+<http:\\/\\/rdf\\.fre ebase\\.com\\/ns\\/("+StringUtils.join(predicates, "|")+")>(.+)\\. RegEx patterny pre parsovanie obsahu predikátu: "common.topic.alias" - \"([^>]+)\"@en "type.object.name" - \"([^>]+)\"@en "type.object.type" - <http:\\/\\/rdf\\.freebase\\.com\\/ns\\/([^>]+)>

Map ReduCe job Map job: Reduce job: Sparsuje RDF N-Tripplet interpretáciu do itenej dátovej štruktúry Zjednotenie urobí na základe vyparsovaného ID, ktoré je unikáte naprieč témamy Reduce job: Zozbierané id prevedie do vyššej dátovej štruktýry štruktúry zhodnej s avro schémou: { "namespace": "sk.stuba.fiit.freebase.hadoop", "type": "record", "name": "TopicAvro", "fields": [ {"name": "title", "type": "string"}, {"name": "types", "type" : { "type": "array", "items" : "string" } }, {"name": "alts", "type" : { "type": "array", "items" : "string"} } ] }

Analytické dáta Analýza prebieha osobitne mimo Map Reduce job-ov. Je to lineárne spracovanie Avro výstupu z Reduce Jobu. Nad celou bázou: Počet topikov (s titulkou): 43269499 Priemerný počet kategúrií na topik: 3.844 Min/max kategórií: 0/142 Priemerný počet aliasov: 0.074 Min/max aliasov: 0/479 Trvanie celého procesu nad dumpom celej db: 4h 22m 48s

Vyhodnotenie Parsovanie zbehne v reálnom čase aj na jednom stroji. Pri použití viacerých strojov očakávam radikálne zrýchlenie.