Extrakcia informácií z medicínskych záznamov Ján Antolík EuroMISE centrum, Ústav Informatiky AV ČR
Obsah Motivácia Riešenie Stav projektu Predbežné výsledky Problémy pri riešení Pohľad do budúcnosti Záver
Motivácia Uchovávanie informácií v zdravotníctve – voľný text Prechod k štruktúrovanému záznamu Problémy Ukladanie v štruktúrovanej podobe - často časovo náročnejšie Nemožnosť úplného vylúčenia voľného textu Transformácia už existujúcich záznamov Prechod na nové aplikácie
Cieľ Automatická transformácia dokumentov uložených vo voľnom texte do štruktúrovanej podoby Automatické generovanie extrakčných pravidiel Extrakčný stroj
Riešenie Nesnažíme sa vytvárať nový extrakčný algoritmus, naopak: Hľadáme čo najlepší univerzálny generátor extrakčných pravidiel Hľadáme čo najlepšie NLP nástroje pre český jazyk Integrácia týchto súčastí do jedného celku Identifikácia slabých miest na funkčnom systéme
Realizácia IE algoritmus: AMILCARE – Fabio Ciravegna, Department of Computer Science, University of Sheffield NLP pre Češtinu: Free Morphology (FM) – Jan Hajič, Institute of Formal and Applied Linguistics, Charles University, Prague, Czech Republic Integrácia prostredníctvom PERL scriptov
AMILCARE Učiaci algoritmus (LP)2 Wrapper Induction Systems, LazyNLP Prednosti Výkon algoritmu Otvorená architektúra Java API front end Trénovací korpus anotovaných dokumentov
(LP)2 algortimus Pravidlo definuje zaciatok/koniec slotu Použitý princíp kontextového okna Postupné pokrývanie pozitívnych príkladov v trénovacej množine Od špecifických pravidiel k obecným Kontextuálne pravidlá Generalizácia From: Ciravegna, F.: Adaptive Information Extraction from Text by Rule Induction and Generalisation, IJCAI 2001
Schéma výsledného systému Korpus textových dokumentov FM AMILCARE Anotačné data PERL scripts Množina extrakčných pravidiel
Predbežné výsledky Prvý korpus - 300 správ Druhý korpus – 1000 správ + násobné anotácie Len 40 z vyše 100 zbieraných údajov sa vyskytlo v prvom korpuse viac než 10 krát Vysoká presnosť ale slabé pokrytie Slabé výsledky pri málo frekventovaných údajoch Testovaný zatiaľ len prvý korpuse
TAG Possible Actual Correct Wrong Partial Missing Precision Recall F-mes First name 146 119 113 1 5 28 94 80 86 Surname 142 89 83 58 93 72 Birth number 102 27 25 2 75 92 39 Birth date 42 31 13 90 68 77 Insurance company nummber 62 65 57 6 3 87 95 91 Address : street 82 14 12 69 85 Address: city 29 23 59 79 41 Address: postal code 38 37 30 4 81 Education 10 Physical activity Alergies to drugs 18 Smoking 17 16 24 40 56 Smoking quantity Subjective bothers Weight 76 9 84
Problémy Amilcare Texty Presnosť anotovania korpusu Extrémne vysoký počet generovaných pravidiel Veľkosť korpusu Texty Neexistencia oddelených viet Pravopisné chyby Závislosť na autorovi Skratky Presnosť anotovania korpusu
Pohľad do budúcnosti Postup práce: Vytvorenie funkčného systému s čo možno najlepších existujúcich nástrojov Identifikácie najslabších miest Návrh riešenia slabín zlepšenie učenia extrakčných pravidiel zlepšenie NLP nástrojov pre Češtinu dodanie doménovo špecifických znalostí slovníky, tezauri, atd. skratky ontológie
Záver Predbežné výsledky vyzerajú nádejne Očakávame zlepšenie vďaka novému korpusu a novým NLP nástrojom Existujú konkrétne predstavy o zavedení do praxe Zatiaľ nie plne autonómne systémy ale podporujúce prácu užívateľa