Prezentácia sa nahráva. Prosím počkajte

Prezentácia sa nahráva. Prosím počkajte

Extrakcia informácií z medicínskych záznamov

Podobné prezentácie


Prezentácia na tému: "Extrakcia informácií z medicínskych záznamov"— Prepis prezentácie:

1 Extrakcia informácií z medicínskych záznamov
Ján Antolík EuroMISE centrum, Ústav Informatiky AV ČR

2 Obsah Motivácia Riešenie Stav projektu Predbežné výsledky
Problémy pri riešení Pohľad do budúcnosti Záver

3 Motivácia Uchovávanie informácií v zdravotníctve – voľný text
Prechod k štruktúrovanému záznamu Problémy Ukladanie v štruktúrovanej podobe - často časovo náročnejšie Nemožnosť úplného vylúčenia voľného textu Transformácia už existujúcich záznamov Prechod na nové aplikácie

4 Cieľ Automatická transformácia dokumentov uložených vo voľnom texte do štruktúrovanej podoby Automatické generovanie extrakčných pravidiel Extrakčný stroj

5 Riešenie Nesnažíme sa vytvárať nový extrakčný algoritmus, naopak:
Hľadáme čo najlepší univerzálny generátor extrakčných pravidiel Hľadáme čo najlepšie NLP nástroje pre český jazyk Integrácia týchto súčastí do jedného celku Identifikácia slabých miest na funkčnom systéme

6 Realizácia IE algoritmus: AMILCARE – Fabio Ciravegna, Department of Computer Science, University of Sheffield NLP pre Češtinu: Free Morphology (FM) – Jan Hajič, Institute of Formal and Applied Linguistics, Charles University, Prague, Czech Republic Integrácia prostredníctvom PERL scriptov

7 AMILCARE Učiaci algoritmus (LP)2 Wrapper Induction Systems, LazyNLP
Prednosti Výkon algoritmu Otvorená architektúra Java API front end Trénovací korpus anotovaných dokumentov

8 (LP)2 algortimus Pravidlo definuje zaciatok/koniec slotu
Použitý princíp kontextového okna Postupné pokrývanie pozitívnych príkladov v trénovacej množine Od špecifických pravidiel k obecným Kontextuálne pravidlá Generalizácia From: Ciravegna, F.: Adaptive Information Extraction from Text by Rule Induction and Generalisation, IJCAI 2001

9 Schéma výsledného systému
Korpus textových dokumentov FM AMILCARE Anotačné data PERL scripts Množina extrakčných pravidiel

10 Predbežné výsledky Prvý korpus - 300 správ
Druhý korpus – 1000 správ + násobné anotácie Len 40 z vyše 100 zbieraných údajov sa vyskytlo v prvom korpuse viac než 10 krát Vysoká presnosť ale slabé pokrytie Slabé výsledky pri málo frekventovaných údajoch Testovaný zatiaľ len prvý korpuse

11 TAG Possible Actual Correct Wrong Partial Missing Precision Recall F-mes First name 146 119 113 1 5 28 94 80 86 Surname 142 89 83 58 93 72 Birth number 102 27 25 2 75 92 39 Birth date 42 31 13 90 68 77 Insurance company nummber 62 65 57 6 3 87 95 91 Address : street 82 14 12 69 85 Address: city 29 23 59 79 41 Address: postal code 38 37 30 4 81 Education 10 Physical activity Alergies to drugs 18 Smoking 17 16 24 40 56 Smoking quantity Subjective bothers Weight 76 9 84

12 Problémy Amilcare Texty Presnosť anotovania korpusu
Extrémne vysoký počet generovaných pravidiel Veľkosť korpusu Texty Neexistencia oddelených viet Pravopisné chyby Závislosť na autorovi Skratky Presnosť anotovania korpusu

13 Pohľad do budúcnosti Postup práce:
Vytvorenie funkčného systému s čo možno najlepších existujúcich nástrojov Identifikácie najslabších miest Návrh riešenia slabín zlepšenie učenia extrakčných pravidiel  zlepšenie NLP nástrojov pre Češtinu  dodanie doménovo špecifických znalostí  slovníky, tezauri, atd. skratky ontológie

14 Záver Predbežné výsledky vyzerajú nádejne
Očakávame zlepšenie vďaka novému korpusu a novým NLP nástrojom Existujú konkrétne predstavy o zavedení do praxe Zatiaľ nie plne autonómne systémy ale podporujúce prácu užívateľa


Stiahnuť ppt "Extrakcia informácií z medicínskych záznamov"

Podobné prezentácie


Reklamy od Google