Zdieľanie výsledkov výskumu v portáli na webe so sémantikou

Slides:



Advertisements
Podobné prezentácie
Vkladanie diakritiky s využitím štatistickej analýzy textu
Advertisements

Vyhľadávanie informáci
Abstrakt Mgr. Imrich IŠTVAN, PhD..
ROZHODOVACIE STROMY doc. Ing. Kristína Machová, CSc.
Editovanie nových záznamov Modifikácia zadaní
ZNALOSTNÉ SYSTÉMY prednáška č. 13
Algorithmic Chemistry in Genetic Programming Informatics and Information Technologies Student Research Conference, 2006 Vojtech Szöcs Vedúci projektu:
VRSTVY Rastrova grafika
Internet a www.
Peter Kajaba Operačné Systémy.
Novinky na platforme Web of Science
OBJAVOVANIE VZOROV POHĽADU PRI NAVIGAČNÝCH ÚLOHÁCH NA WEBE
Zelená škola Mgr. Eduard Gemza
Rýchlokurz: Ohodnocovanie grafov
Školiteľ: Ing. Helena Fidlerová, PhD.
MANAŽMENT ĽUDSKÝCH ZDROJOV
Spracovanie postupnosti pohľadu pravdepodobnostnými modelmi
Návrh projektu Téma: Zlepšovanie odbornej grafickej pripravenosti žiakov Oblasť vzdelávania: Práca s PC Cieľová skupina: rokov (3 - 4 ročník)
Ako môže manažér efektívne zdielať zamestnanecké dáta s personalistom a zapojiť sa tak do HR procesov? Peter Vilem.
Autor: Patrik Januška Vedúci práce: Ing. Eduard Kuric
18/9/2018 Licitácia Tomáš Pavlík
Ing. Jana Ďurišová Grafika pre web.
Databázové systémy.
Technická prezentácia
Modelovanie kontextov s účelom objavenia skrytých kontextov
9/4/2019 Firemná knižnica 2000 Nadežda Andrejčíková N. Andrejčíková.
Ing. Alojz ANDROVIČ, PhD. – PhDr. Jana MATÚŠKOVÁ Bratislava, máj 2016
Sem zadajte názov projektu Vaše meno Meno vyučujúceho Vaša škola
Tvorba projektu a prezentačné zručnosti
25/9/2018 Výsledok Tomáš Pavlík
EBSCO Discovery Service ~ Jednoduché vyhľadávanie
Informačné zdroje v heterogénnom prostredí a KIS nového tisícročia
Analýza aktivity na počítači v pracovnom prostredí
VIRTUÁLNÍ HOSPITACE Biológia Osmtické javy v bunke
Vedúci diplomovej práce: prof. Ing. Stanislav Marchevský, Csc.
Dopady aktívnych opatrení trhu práce na zvyšovanie zamestnanosti
Posudky.
Regióny a regionálny rozvoj
Použitie počítačov v geografii (2)
Aktualizačné vzdelávanie učiteľov cvičných firiem
Prehľad projektu Oblasti vzdelávania Veková skupina Vzdelávacie ciele
Téma: Nástroje na tvorbu prezentácie
Informačné a komunikačné technológie v knižnično-informačných systémoch Nadežda Andrejčíková.
Počítačové siete Simona Diškanová III.D.
Rozloženie nadpisu Podtitul.
Víta vás nový PowerPoint
(Vieme) Kam kráča svet vedeckého publikovania?
Simplexová metóda Algoritmus primárne simplexovej metódy možno ideovo vyjadriť nasledovným spôsobom: Stanovenie bázického prípustného riešenia (bázy s.
Virtuálna kooperácia pre kultúrne dedičstvo PROJEKT DIZERTAČNEJ PRÁCE
Spoplatnenie obsahu na slovenskom internete JÚN 2010
VYHĽADÁVANIE LETECKÝCH ZÁJAZDOV
Testovanie štatistických hypotéz v programe Excel
Umelé neurónové siete Márius Šajgalík.
Formátovanie tabuliek
PREPOJENIE EURÓPSKYCH
TURISTICKÁ A INFORMAČNÁ MAPA MESTA LUČENEC
Štandardy v procese spracovania bibliografických informácií i u nás.
ŠTATISTIKA A EFKÁRI IVONA MAGYAROVÁ 3.F BANSKÁ BYSTRICA 2006.
PhDr. Tatiana ARBE, OEMP ÚM STU
Rozpoznávanie obrazcov a spracovanie obrazu
Kapowtech RoboSuite Team10.
Vyjadrovacie prostriedky v štatistike
Použitie počítačov v geografii (2)
1. Lexikálna sémantika substantív
PRAVDEPODOBNOSTNÝ POJEM doc. Ing. Kristína Machová, CSc.
Informačné popoludnie SAEC
Umiestnenia benchmarkov Štruktúry súborov Použitie súborov
Nepriama úmernosť – tabuľka, rovnica a graf
Obsah prezentácie digitálna prezentácia Desatoro
Prepis prezentácie:

Zdieľanie výsledkov výskumu v portáli na webe so sémantikou Riešiteľ: Ladislav Rado Vedúci: Mária Bieliková FIIT STU 21. 6. 2007

Zdieľanie výsledkov výskumu v portáli na webe so sémantikou Ciele metódy: Navrhnúť reprezentáciu metadát Predspracovanie metadát Tvorba siete z metadát Analýza vytvorenej siete Vytvorenie skupín výskumníkov s podobnými záujmami Prispôsobovanie obsahu používateľovi Prezentácia výsledkov v portáli Cieľom tohto projektu je efektívne sprístupniť informácie človeku v doméne publikácií. Pod výsledkami výskumu budeme v tomto projektu rozumieť publikácie. Ako zdroj sme si vybrali publikácie s portálov so zameraním na informatiku. Zdrojmi publikácií boli hlavne dva portály DBLP a digitálna knižnica ACM. Web so sémantikou možno chápať ako rozšírenie súčasného webu. Hlavný rozdiel je v reprezentácii dokumentov kde sa k častiam dokumentu pridáva informácia o sémantike. Metadáta umožňujú popísať sémantiku publikácie. Pre efektívne uloženie metadát bol navrhnutý spôsob ich reprezentácie ontológiou. Základom ontológie je trojica subjekt (napríklad autor) - predikát (napísal) – objekt (publikáciu), subjekt môže mať viacero vzťahov a objekt sa môže ďalej rozvíjať napríklad publikácia A – cituje – publikáciu B. Vytvorenie siete Analýzu siete Využitie siete

Model domény Ontológia Doména – vedecké publikácie zdieľaná formálna explicitná konceptualizácia domény Doména – vedecké publikácie Popis zdrojov trojicou subjekt, predikát, objekt Metadáta publikácie autor, názov, rok, vydavateľ DBLP a ACM: abstrakt, citácie ACM: hierarchická klasifikácia, kľúčové slová, spolupracovníci Zdieľanie ontológie prostredníctvom webu. Ontológiou možno vo všeobecnosti popisovať zdroje na webe. Doména je oblasť ktorou sa zaoberáme. Modelovať budeme metadáta publikácie. Základné metadáta publikácie sú autor, názov, rok vydania, vydavateľ, Rozšírením sú odkazy na publikácie ako citácie, a iné. Okrem toho napríklad ACM niektoré zdroje rozširujú metadáta o klasifikáciu, kľúčové slová alebo zoznam spolupracovníkov autora. Citácie odkazy na iné publikácie Metadáta budeme získavať metadáta ktorý bude vyberať tieto metadáta

Predspracovanie entít Rozlíšenie entít rôzne štýly citácií v publikáciách Zosúladenie identických entít publikácie citácie Cieľ: Rozlíšiť citácie v publikáciách nielen na existujúce publikácie v ontlógii ale aj navzájom, vytvoriť z citácií publikácie metadáta a zahrnúť ich do ontológie. ÚDostáne Keďže autori používajú rôzne štýly citácií, potrebe určenenie častí citácie ktoré zodpovedajú položkám metadát. Potom ako boli určené položky, Citácie z rôznych publikácií ktoré ukazujú na tú istú publikáciu budú mať odkaz na rovnaký zdroj alebo identifikátor. Sústredíme sa na citácie A z citácií ktoré nemajú metadáta vytvoriť inštancie publikácií a zahrnúť ich do ontológie. Pri prvých pokusoch sme uvažovali len rozlíšenie citácií na existujúce metadáta. Pretože sme mali k dispozícii malú vzorku dát vtedy 500 publikácií, roz Kritérium zosúladenia percentuálna zhoda na základe metriky vzdialenosti Levenshtein.

Tvorba grafu Sieť citácií uzol: inštancia Paper hrana: predikát references hodnotenie publikácie autora prispieva k hodnoteniu autora v prípade spoluautorov si rozdelia hodnotenie publikácie citovanie svojich publikácií neuvažovať Potom čo bolo dokončené predspracovanie, možno vytvoriť sieť prepojení a tú analyzovať. Vybrali sme si sieť citácií ako jednu z možností konštrukcie siete reprezentovanú grafom. Uzly budú tvoriť inštancie publikácii typu Paper. Hrany grafu budú predstavovať relácie citácií. Hodnotenie autora budeme vypočítavať na základe hodnotenia publikácie V prípade spoluautorov sa hodnotenie publikácie rozdelí medzi autorov Citovanie svojich vlastných publikácií z dôvodu možného zvyšovania hodnotenia samotného.

Vytvorenie skupín výskumníkov s podobnými záujmami Rozdelenie publikácií podľa klasifikácie Autori sú hodnotení na základe publikácií Hodnotenie publikácií sa vypočíta dopredu vzhľadom na oblasti prepočítava sa pre celý graf, nielen lokálne Štatistické metriky vzácnosť, popularita, dĺžka asociácie Sémantické metriky kontext, zaradenie, dôvera Po vytvorení siete ju možno analyzovať. V sieti budeme hľadať skupiny výskumníkov s podobnými záujmami. Tie budú klasifikácie publikácií. Hodnotenie autorov bude vypočítané dopredu na základe hodnotenia publikácií. Toto hodnotenie bude vypočítané vzhľadom na oblasti z klasifikácie publikácií. A ako ukázalo analýzou bude nutné ho prepočítavať pre celý graf nie len lokálne pri zmene. //Model používatela sa bude aktualizovať iným spôsobom. Vo vytvorenej možno analyzovať vzťahy medzi entitami. Tu uvádzame dva typy metrík: Štatistické a sémantické. Metriky sa môžu týkať nielen publikácií ale aj autorov. Metriky sú užitočné nielen pre zistenie vlastností siete ale aj pre využitie pri odporúčaní, kedy má použivateľ možnosť upredniť niektorú z nich a určiť tak poradie výsledkov. Vypočítanie hodnotenia algoritmom PageRank pre pre nezaradené publikácie sa použijú ostatné metadáta Pôvodne sa uvažovalo o prepočítavaní hodnotenia pre časti grafu pri zmene, ďalšou analýzou sa zistilo že je potrebné prepočítavať hodnotenia pre celý graf. Používateľom definované hodnotenia: Štatistické – vzácnosť, téma je zriedkavá, Popularita – počet použití, citácií, odkazov, Dĺžka asociácie – napríklad medzi autormi, vzdialenosť v hierarchii Sémantické: oblasť záujmov, publikácie na podobnú tému Umiestnenie na rovnakej úrovni spoločný predok. Dôvera – určená najhorším názorom vyjadrená názormi používateľov

Preferencie používateľa Ohraničenie výsledkov Vyjadrenie používateľa pre preferenciu, proti preferencii, nevyjadrenie Aspoň k jednej preferencii sa musí používateľ vyjadriť buď pre alebo proti Preferencie Zhoda časti profilu s hľadanou publikáciou Vysoké hodnotenie publikácií (autorov) Časová aktuálnosť Model používateľa aktualizovaný počas sedenia Požívateľ vyberá z preferencií, aktualizuje sa lokálny profil vytváraný počas sedenia. Na základe vyberaných výsledkov sa určuje spoločná oblasť a po určitom počte sa aktualizuje globálny model aktuálnych záujmov používateľa. Zhoda profilu s hľadanou publikáciou Časový rozmer aktuálnosť publikácie Vysoké Hodnotenie publikácií (analógia kvalitných odkazy) Kombinácia (m*p - 1)*p spôsobov výberu (m – 3 možnosti, p - preferencie)

Odporúčanie publikácií alebo autorov Odporučenie autora, ktorého používateľ necitoval a jeho publikácia je z oblasti záujmu necitoval a spolupracuje s autoritou citoval a autor vydal niečo nové neprezeral a doteraz necitoval Ako sa model používateľa aktualizuje systém môže odporúčať publikácie alebo autov publikácií. Priklady odporú

Spôsoby prezentácie výsledkov Zoznam publikácií ohraničený preferenciami používateľa Graf odkazov zobrazenie časti rozsiahleho grafu navigácia oboma smermi Časová os – skupiny spolupracovníkov podľa rokov, prepojenia oblastí Zoznam relevantných publikácií vzhľadom na preferencie používateľa Rozsiahle grafy zobrazuje sa len časť Časová os skupiny spolupracovníkov podľa rokov

Problémy Uloženie ontológie Sesame v1.2.6 Chýbajú príkazy pre usporiadanie výsledkov. Chýba možnosť priamo pridávať a mazať Chýba pamäť výsledkov (cache) 1 000 inštancií publikácií – málo prepojené 10 000 inštancií – výpočtovo nerealizovateľné 100 000 inštancií – ??? Použiť priame rozhrania vs. spoločná pamäť Niektoré hlavné nedostatky súčasných nástrojov pre uloženie a prístup k ontológii. Z hľadiska časového trvá spracovanie je priamo úmerné veľkosti databázy a prístup pomalý a trvá. Napríklad vykreslenie grafu prepojení citácií s 2000 uzlami, ktoré tvorili publikácie trvalo na testovanom stroji až 60 sekúnd. Načítanie súboru ontológie s 1 000 inštanciami má okolo 15 MB. Pre rýchly prístup by bolo potrebné načítavať priamo z operačnej pamäti.

Architektúra systému Architektúra systému

Zdieľanie výsledkov výskumu v portáli na webe so sémantikou Ciele metódy: Navrhnúť reprezentáciu metadát Predspracovanie metadát Tvorba siete z metadát Analýza vytvorenej siete Vytvorenie skupín výskumníkov s podobnými záujmami Prispôsobovanie obsahu používateľovi Prezentácia výsledkov v portáli Cieľom tohto projektu je efektívne sprístupniť informácie človeku v doméne publikácií. Pod výsledkami výskumu budeme v kontexte tohto projektu rozumieť publikácie. Ako zdroj sme si vybrali publikácie s portálov so zameraním na informatiku. Zdrojmi publikácií boli hlavne dva portály DBLP a digitálna knižnica ACM. Web so sémantikou možno chápať ako rozšírenie súčasného webu. Hlavný rozdiel je v reprezentácii dokumentov kde sa k častiam dokumentu pridáva informácia o sémantike. Metadáta umožňujú popísať sémantiku publikácie. Pre efektívne uloženie metadát bol navrhnutý spôsob ich reprezentácie ontológiou. Základom ontológie je trojica subjekt (napríklad autor) - predikát (napísal) – objekt (publikáciu), subjekt môže mať viacero vzťahov a objekt sa môže ďalej rozvíjať napríklad publikácia A – cituje – publikáciu B.