Extrakcia informácií z medicínskych záznamov

Slides:



Advertisements
Podobné prezentácie
Vkladanie diakritiky s využitím štatistickej analýzy textu
Advertisements

Centrálny Dátový Archív
Osnova prednášky Synchronizácia v Jave
Abstrakt Mgr. Imrich IŠTVAN, PhD..
ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.
E.3. Porovnanie kvality modelov
Návraty do minulosti Hudba v stredoveku 5. – 14. storočie.
Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:
Určovanie storočí STOROČIE – časová jednotka, ktorá má sto rokov
Internet a www.
Ing. Adriana Bindzárová
Novinky na platforme Web of Science
Komplexné služby pre váš web
Výskumný ústav detskej psychológie a patopsychológie v Bratislave
Academic Internet Television Network Showcases
Druhy softvéru a aplikačné programy
OBČIANSKE ZDRUŽENIE PRIMA ROK 2003
OBČIANSKE ZDRUŽENIE PRIMA ROK 2008
MANAŽMENT ĽUDSKÝCH ZDROJOV

Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi
Vedúci práce: RNDr. Peter Gurský, PhD. Autor: Patrik Sedlák
Kariérne možnosti v spoločnosti STRABAG.
Rešeršovanie vo Virtua OPAC
Multiplatformný rastrový program GIMP
Správa o mládeži 2018 Dobrovoľníctvo.
Úvod do jazyka C Algoritmizácia úloh.
Autor: Patrik Januška Vedúci práce: Ing. Eduard Kuric
Základné pojmy spojené s BIOS
Web of Science V PRAXI Eniko Toth Szasz
Posilňovanie rovnosti LGBTI osôb v Európskej únii
INTEGRITY GROUP © Integrity Group.
Bioelektronika a organická elektronika Úvod
Databázové systémy.
Vzdelávanie sestier Prof. Mgr. Katarína Žiaková, PhD.
Technická prezentácia
Prozodické vlastnosti reči I. Časová modulácia reči (PD č. 4)
Geneticky podmienené choroby
9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.
Tvorba a manažment projektov
Využitie informácií pri verejnej kontrole
EBSCO Discovery Service ~ Jednoduché vyhľadávanie
Analýza aktivity na počítači v pracovnom prostredí
Wrapper Suite Programmable Internet Information Retrieval based on HTML structure & contents Igor Berta, Andrej Janžo, Michal Jemala, Peter Kasan, Peter.
Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.
SPRÍSTUPNENIE DENNÉHO CENTRA RADVAŇ OZ ZA DÔSTOJNÚ RADVAŇ
Analýza medicínskych dát na báze interaktívnej evolúcie
Posudky.
Použitie počítačov v geografii (2)
Opakovanie sekvencia postupnosť príkazov (príkaz je povel, ktorý počítač alebo iné zariadenie pozná a dokáže vykonať) vykonávanú v takom poradí, v akom.
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Bregmanove divergencie Využitie indexovacích štruktúr pre efektívne podobnostné vyhľadávanie Lukáš Holecy Bregmanove divergencie.
Téma: Nástroje na tvorbu prezentácie
(Vieme) Kam kráča svet vedeckého publikovania?
Simplexová metóda Algoritmus primárne simplexovej metódy možno ideovo vyjadriť nasledovným spôsobom: Stanovenie bázického prípustného riešenia (bázy s.
Tvorba a manažment projektov
Vyhľadávanie informácii
Virtuálna kooperácia pre kultúrne dedičstvo PROJEKT DIZERTAČNEJ PRÁCE
Rovnice a ich riešenia.
VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV
PREPOJENIE EURÓPSKYCH
Štandardy v procese spracovania bibliografických informácií i u nás.
Výhody štandardizácie v prostredí Pro|ENGINEER
Implementácia inovatívnych foriem a metód výučby na ZŠ Bežovce
Kapowtech RoboSuite Team10.
Manažment prístupov tretích strán
OBČIANSKE ZDRUŽENIE PRIMA ROK 2012
Informačné popoludnie SAEC
prof. RNDr. Libor Vozár, CSc. Univerzita Konštantína Filozofa v Nitre
Obsah prezentácie digitálna prezentácia Desatoro
Prepis prezentácie:

Extrakcia informácií z medicínskych záznamov Ján Antolík EuroMISE centrum, Ústav Informatiky AV ČR

Obsah Motivácia Riešenie Stav projektu Predbežné výsledky Problémy pri riešení Pohľad do budúcnosti Záver

Motivácia Uchovávanie informácií v zdravotníctve – voľný text Prechod k štruktúrovanému záznamu Problémy Ukladanie v štruktúrovanej podobe - často časovo náročnejšie Nemožnosť úplného vylúčenia voľného textu Transformácia už existujúcich záznamov Prechod na nové aplikácie

Cieľ Automatická transformácia dokumentov uložených vo voľnom texte do štruktúrovanej podoby Automatické generovanie extrakčných pravidiel Extrakčný stroj

Riešenie Nesnažíme sa vytvárať nový extrakčný algoritmus, naopak: Hľadáme čo najlepší univerzálny generátor extrakčných pravidiel Hľadáme čo najlepšie NLP nástroje pre český jazyk Integrácia týchto súčastí do jedného celku Identifikácia slabých miest na funkčnom systéme

Realizácia IE algoritmus: AMILCARE – Fabio Ciravegna, Department of Computer Science, University of Sheffield NLP pre Češtinu: Free Morphology (FM) – Jan Hajič, Institute of Formal and Applied Linguistics, Charles University, Prague, Czech Republic Integrácia prostredníctvom PERL scriptov

AMILCARE Učiaci algoritmus (LP)2 Wrapper Induction Systems, LazyNLP Prednosti Výkon algoritmu Otvorená architektúra Java API front end Trénovací korpus anotovaných dokumentov

(LP)2 algortimus Pravidlo definuje zaciatok/koniec slotu Použitý princíp kontextového okna Postupné pokrývanie pozitívnych príkladov v trénovacej množine Od špecifických pravidiel k obecným Kontextuálne pravidlá Generalizácia From: Ciravegna, F.: Adaptive Information Extraction from Text by Rule Induction and Generalisation, IJCAI 2001

Schéma výsledného systému Korpus textových dokumentov FM AMILCARE Anotačné data PERL scripts Množina extrakčných pravidiel

Predbežné výsledky Prvý korpus - 300 správ Druhý korpus – 1000 správ + násobné anotácie Len 40 z vyše 100 zbieraných údajov sa vyskytlo v prvom korpuse viac než 10 krát Vysoká presnosť ale slabé pokrytie Slabé výsledky pri málo frekventovaných údajoch Testovaný zatiaľ len prvý korpuse

TAG Possible Actual Correct Wrong Partial Missing Precision Recall F-mes First name 146 119 113 1 5 28 94 80 86 Surname 142 89 83 58 93 72 Birth number 102 27 25 2 75 92 39 Birth date 42 31 13 90 68 77 Insurance company nummber 62 65 57 6 3 87 95 91 Address : street 82 14 12 69 85 Address: city 29 23 59 79 41 Address: postal code 38 37 30 4 81 Education 10 Physical activity Alergies to drugs 18 Smoking 17 16 24 40 56 Smoking quantity Subjective bothers Weight 76 9 84

Problémy Amilcare Texty Presnosť anotovania korpusu Extrémne vysoký počet generovaných pravidiel Veľkosť korpusu Texty Neexistencia oddelených viet Pravopisné chyby Závislosť na autorovi Skratky Presnosť anotovania korpusu

Pohľad do budúcnosti Postup práce: Vytvorenie funkčného systému s čo možno najlepších existujúcich nástrojov Identifikácie najslabších miest Návrh riešenia slabín zlepšenie učenia extrakčných pravidiel  zlepšenie NLP nástrojov pre Češtinu  dodanie doménovo špecifických znalostí  slovníky, tezauri, atd. skratky ontológie

Záver Predbežné výsledky vyzerajú nádejne Očakávame zlepšenie vďaka novému korpusu a novým NLP nástrojom Existujú konkrétne predstavy o zavedení do praxe Zatiaľ nie plne autonómne systémy ale podporujúce prácu užívateľa