Extrakcia informácií z medicínskych záznamov

Slides:

Advertisements

Podobné prezentácie

Vkladanie diakritiky s využitím štatistickej analýzy textu

Advertisements

Centrálny Dátový Archív

Osnova prednášky Synchronizácia v Jave

Abstrakt Mgr. Imrich IŠTVAN, PhD..

ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.

E.3. Porovnanie kvality modelov

Návraty do minulosti Hudba v stredoveku 5. – 14. storočie.

Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:

Určovanie storočí STOROČIE – časová jednotka, ktorá má sto rokov

Internet a www.

Ing. Adriana Bindzárová

Novinky na platforme Web of Science

Komplexné služby pre váš web

Výskumný ústav detskej psychológie a patopsychológie v Bratislave

Academic Internet Television Network Showcases

Druhy softvéru a aplikačné programy

OBČIANSKE ZDRUŽENIE PRIMA ROK 2003

OBČIANSKE ZDRUŽENIE PRIMA ROK 2008

MANAŽMENT ĽUDSKÝCH ZDROJOV

Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi

Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák

Kariérne možnosti v spoločnosti STRABAG.

Rešeršovanie vo Virtua OPAC

Multiplatformný rastrový program GIMP

Správa o mládeži 2018 Dobrovoľníctvo.

Úvod do jazyka C Algoritmizácia úloh.

Autor: Patrik Januška Vedúci práce: Ing. Eduard Kuric

Základné pojmy spojené s BIOS

Web of Science V PRAXI Eniko Toth Szasz

Posilňovanie rovnosti LGBTI osôb v Európskej únii

INTEGRITY GROUP © Integrity Group.

Bioelektronika a organická elektronika Úvod

Databázové systémy.

Vzdelávanie sestier Prof. Mgr. Katarína Žiaková, PhD.

Technická prezentácia

Prozodické vlastnosti reči I. Časová modulácia reči (PD č. 4)

Geneticky podmienené choroby

9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.

Tvorba a manažment projektov

Využitie informácií pri verejnej kontrole

EBSCO Discovery Service ~ Jednoduché vyhľadávanie

Analýza aktivity na počítači v pracovnom prostredí

Wrapper Suite Programmable Internet Information Retrieval based on HTML structure & contents Igor Berta, Andrej Janžo, Michal Jemala, Peter Kasan, Peter.

Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.

SPRÍSTUPNENIE DENNÉHO CENTRA RADVAŇ OZ ZA DÔSTOJNÚ RADVAŇ

Analýza medicínskych dát na báze interaktívnej evolúcie

Použitie počítačov v geografii (2)

Opakovanie sekvencia postupnosť príkazov (príkaz je povel, ktorý počítač alebo iné zariadenie pozná a dokáže vykonať) vykonávanú v takom poradí, v akom.

Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele

Bregmanove divergencie Využitie indexovacích štruktúr pre efektívne podobnostné vyhľadávanie Lukáš Holecy Bregmanove divergencie.

Téma: Nástroje na tvorbu prezentácie

(Vieme) Kam kráča svet vedeckého publikovania?

Simplexová metóda Algoritmus primárne simplexovej metódy možno ideovo vyjadriť nasledovným spôsobom: Stanovenie bázického prípustného riešenia (bázy s.

Tvorba a manažment projektov

Vyhľadávanie informácii

Virtuálna kooperácia pre kultúrne dedičstvo PROJEKT DIZERTAČNEJ PRÁCE

Rovnice a ich riešenia.

VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV

PREPOJENIE EURÓPSKYCH

Štandardy v procese spracovania bibliografických informácií i u nás.

Výhody štandardizácie v prostredí Pro|ENGINEER

Implementácia inovatívnych foriem a metód výučby na ZŠ Bežovce

Kapowtech RoboSuite Team10.

Manažment prístupov tretích strán

OBČIANSKE ZDRUŽENIE PRIMA ROK 2012

Informačné popoludnie SAEC

prof. RNDr. Libor Vozár, CSc. Univerzita Konštantína Filozofa v Nitre

Obsah prezentácie digitálna prezentácia Desatoro

Prepis prezentácie:

Extrakcia informácií z medicínskych záznamov Ján Antolík EuroMISE centrum, Ústav Informatiky AV ČR

Obsah Motivácia Riešenie Stav projektu Predbežné výsledky Problémy pri riešení Pohľad do budúcnosti Záver

Motivácia Uchovávanie informácií v zdravotníctve – voľný text Prechod k štruktúrovanému záznamu Problémy Ukladanie v štruktúrovanej podobe - často časovo náročnejšie Nemožnosť úplného vylúčenia voľného textu Transformácia už existujúcich záznamov Prechod na nové aplikácie

Cieľ Automatická transformácia dokumentov uložených vo voľnom texte do štruktúrovanej podoby Automatické generovanie extrakčných pravidiel Extrakčný stroj

Riešenie Nesnažíme sa vytvárať nový extrakčný algoritmus, naopak: Hľadáme čo najlepší univerzálny generátor extrakčných pravidiel Hľadáme čo najlepšie NLP nástroje pre český jazyk Integrácia týchto súčastí do jedného celku Identifikácia slabých miest na funkčnom systéme

Realizácia IE algoritmus: AMILCARE – Fabio Ciravegna, Department of Computer Science, University of Sheffield NLP pre Češtinu: Free Morphology (FM) – Jan Hajič, Institute of Formal and Applied Linguistics, Charles University, Prague, Czech Republic Integrácia prostredníctvom PERL scriptov

AMILCARE Učiaci algoritmus (LP)2 Wrapper Induction Systems, LazyNLP Prednosti Výkon algoritmu Otvorená architektúra Java API front end Trénovací korpus anotovaných dokumentov

(LP)2 algortimus Pravidlo definuje zaciatok/koniec slotu Použitý princíp kontextového okna Postupné pokrývanie pozitívnych príkladov v trénovacej množine Od špecifických pravidiel k obecným Kontextuálne pravidlá Generalizácia From: Ciravegna, F.: Adaptive Information Extraction from Text by Rule Induction and Generalisation, IJCAI 2001

Schéma výsledného systému Korpus textových dokumentov FM AMILCARE Anotačné data PERL scripts Množina extrakčných pravidiel

Predbežné výsledky Prvý korpus - 300 správ Druhý korpus – 1000 správ + násobné anotácie Len 40 z vyše 100 zbieraných údajov sa vyskytlo v prvom korpuse viac než 10 krát Vysoká presnosť ale slabé pokrytie Slabé výsledky pri málo frekventovaných údajoch Testovaný zatiaľ len prvý korpuse

TAG Possible Actual Correct Wrong Partial Missing Precision Recall F-mes First name 146 119 113 1 5 28 94 80 86 Surname 142 89 83 58 93 72 Birth number 102 27 25 2 75 92 39 Birth date 42 31 13 90 68 77 Insurance company nummber 62 65 57 6 3 87 95 91 Address : street 82 14 12 69 85 Address: city 29 23 59 79 41 Address: postal code 38 37 30 4 81 Education 10 Physical activity Alergies to drugs 18 Smoking 17 16 24 40 56 Smoking quantity Subjective bothers Weight 76 9 84

Problémy Amilcare Texty Presnosť anotovania korpusu Extrémne vysoký počet generovaných pravidiel Veľkosť korpusu Texty Neexistencia oddelených viet Pravopisné chyby Závislosť na autorovi Skratky Presnosť anotovania korpusu

Pohľad do budúcnosti Postup práce: Vytvorenie funkčného systému s čo možno najlepších existujúcich nástrojov Identifikácie najslabších miest Návrh riešenia slabín zlepšenie učenia extrakčných pravidiel  zlepšenie NLP nástrojov pre Češtinu  dodanie doménovo špecifických znalostí  slovníky, tezauri, atd. skratky ontológie

Záver Predbežné výsledky vyzerajú nádejne Očakávame zlepšenie vďaka novému korpusu a novým NLP nástrojom Existujú konkrétne predstavy o zavedení do praxe Zatiaľ nie plne autonómne systémy ale podporujúce prácu užívateľa