Prezentácia sa nahráva. Prosím počkajte

Prezentácia sa nahráva. Prosím počkajte

Zdieľanie výsledkov výskumu v portáli na webe so sémantikou

Podobné prezentácie


Prezentácia na tému: "Zdieľanie výsledkov výskumu v portáli na webe so sémantikou"— Prepis prezentácie:

1 Zdieľanie výsledkov výskumu v portáli na webe so sémantikou
Riešiteľ: Ladislav Rado Vedúci: Mária Bieliková FIIT STU

2 Zdieľanie výsledkov výskumu v portáli na webe so sémantikou
Ciele metódy: Navrhnúť reprezentáciu metadát Predspracovanie metadát Tvorba siete z metadát Analýza vytvorenej siete Vytvorenie skupín výskumníkov s podobnými záujmami Prispôsobovanie obsahu používateľovi Prezentácia výsledkov v portáli Cieľom tohto projektu je efektívne sprístupniť informácie človeku v doméne publikácií. Pod výsledkami výskumu budeme v tomto projektu rozumieť publikácie. Ako zdroj sme si vybrali publikácie s portálov so zameraním na informatiku. Zdrojmi publikácií boli hlavne dva portály DBLP a digitálna knižnica ACM. Web so sémantikou možno chápať ako rozšírenie súčasného webu. Hlavný rozdiel je v reprezentácii dokumentov kde sa k častiam dokumentu pridáva informácia o sémantike. Metadáta umožňujú popísať sémantiku publikácie. Pre efektívne uloženie metadát bol navrhnutý spôsob ich reprezentácie ontológiou. Základom ontológie je trojica subjekt (napríklad autor) - predikát (napísal) – objekt (publikáciu), subjekt môže mať viacero vzťahov a objekt sa môže ďalej rozvíjať napríklad publikácia A – cituje – publikáciu B. Vytvorenie siete Analýzu siete Využitie siete

3 Model domény Ontológia Doména – vedecké publikácie
zdieľaná formálna explicitná konceptualizácia domény Doména – vedecké publikácie Popis zdrojov trojicou subjekt, predikát, objekt Metadáta publikácie autor, názov, rok, vydavateľ DBLP a ACM: abstrakt, citácie ACM: hierarchická klasifikácia, kľúčové slová, spolupracovníci Zdieľanie ontológie prostredníctvom webu. Ontológiou možno vo všeobecnosti popisovať zdroje na webe. Doména je oblasť ktorou sa zaoberáme. Modelovať budeme metadáta publikácie. Základné metadáta publikácie sú autor, názov, rok vydania, vydavateľ, Rozšírením sú odkazy na publikácie ako citácie, a iné. Okrem toho napríklad ACM niektoré zdroje rozširujú metadáta o klasifikáciu, kľúčové slová alebo zoznam spolupracovníkov autora. Citácie odkazy na iné publikácie Metadáta budeme získavať metadáta ktorý bude vyberať tieto metadáta

4 Predspracovanie entít
Rozlíšenie entít rôzne štýly citácií v publikáciách Zosúladenie identických entít publikácie citácie Cieľ: Rozlíšiť citácie v publikáciách nielen na existujúce publikácie v ontlógii ale aj navzájom, vytvoriť z citácií publikácie metadáta a zahrnúť ich do ontológie. ÚDostáne Keďže autori používajú rôzne štýly citácií, potrebe určenenie častí citácie ktoré zodpovedajú položkám metadát. Potom ako boli určené položky, Citácie z rôznych publikácií ktoré ukazujú na tú istú publikáciu budú mať odkaz na rovnaký zdroj alebo identifikátor. Sústredíme sa na citácie A z citácií ktoré nemajú metadáta vytvoriť inštancie publikácií a zahrnúť ich do ontológie. Pri prvých pokusoch sme uvažovali len rozlíšenie citácií na existujúce metadáta. Pretože sme mali k dispozícii malú vzorku dát vtedy 500 publikácií, roz Kritérium zosúladenia percentuálna zhoda na základe metriky vzdialenosti Levenshtein.

5 Tvorba grafu Sieť citácií uzol: inštancia Paper
hrana: predikát references hodnotenie publikácie autora prispieva k hodnoteniu autora v prípade spoluautorov si rozdelia hodnotenie publikácie citovanie svojich publikácií neuvažovať Potom čo bolo dokončené predspracovanie, možno vytvoriť sieť prepojení a tú analyzovať. Vybrali sme si sieť citácií ako jednu z možností konštrukcie siete reprezentovanú grafom. Uzly budú tvoriť inštancie publikácii typu Paper. Hrany grafu budú predstavovať relácie citácií. Hodnotenie autora budeme vypočítavať na základe hodnotenia publikácie V prípade spoluautorov sa hodnotenie publikácie rozdelí medzi autorov Citovanie svojich vlastných publikácií z dôvodu možného zvyšovania hodnotenia samotného.

6 Vytvorenie skupín výskumníkov s podobnými záujmami
Rozdelenie publikácií podľa klasifikácie Autori sú hodnotení na základe publikácií Hodnotenie publikácií sa vypočíta dopredu vzhľadom na oblasti prepočítava sa pre celý graf, nielen lokálne Štatistické metriky vzácnosť, popularita, dĺžka asociácie Sémantické metriky kontext, zaradenie, dôvera Po vytvorení siete ju možno analyzovať. V sieti budeme hľadať skupiny výskumníkov s podobnými záujmami. Tie budú klasifikácie publikácií. Hodnotenie autorov bude vypočítané dopredu na základe hodnotenia publikácií. Toto hodnotenie bude vypočítané vzhľadom na oblasti z klasifikácie publikácií. A ako ukázalo analýzou bude nutné ho prepočítavať pre celý graf nie len lokálne pri zmene. //Model používatela sa bude aktualizovať iným spôsobom. Vo vytvorenej možno analyzovať vzťahy medzi entitami. Tu uvádzame dva typy metrík: Štatistické a sémantické. Metriky sa môžu týkať nielen publikácií ale aj autorov. Metriky sú užitočné nielen pre zistenie vlastností siete ale aj pre využitie pri odporúčaní, kedy má použivateľ možnosť upredniť niektorú z nich a určiť tak poradie výsledkov. Vypočítanie hodnotenia algoritmom PageRank pre pre nezaradené publikácie sa použijú ostatné metadáta Pôvodne sa uvažovalo o prepočítavaní hodnotenia pre časti grafu pri zmene, ďalšou analýzou sa zistilo že je potrebné prepočítavať hodnotenia pre celý graf. Používateľom definované hodnotenia: Štatistické – vzácnosť, téma je zriedkavá, Popularita – počet použití, citácií, odkazov, Dĺžka asociácie – napríklad medzi autormi, vzdialenosť v hierarchii Sémantické: oblasť záujmov, publikácie na podobnú tému Umiestnenie na rovnakej úrovni spoločný predok. Dôvera – určená najhorším názorom vyjadrená názormi používateľov

7 Preferencie používateľa
Ohraničenie výsledkov Vyjadrenie používateľa pre preferenciu, proti preferencii, nevyjadrenie Aspoň k jednej preferencii sa musí používateľ vyjadriť buď pre alebo proti Preferencie Zhoda časti profilu s hľadanou publikáciou Vysoké hodnotenie publikácií (autorov) Časová aktuálnosť Model používateľa aktualizovaný počas sedenia Požívateľ vyberá z preferencií, aktualizuje sa lokálny profil vytváraný počas sedenia. Na základe vyberaných výsledkov sa určuje spoločná oblasť a po určitom počte sa aktualizuje globálny model aktuálnych záujmov používateľa. Zhoda profilu s hľadanou publikáciou Časový rozmer aktuálnosť publikácie Vysoké Hodnotenie publikácií (analógia kvalitných odkazy) Kombinácia (m*p - 1)*p spôsobov výberu (m – 3 možnosti, p - preferencie)

8 Odporúčanie publikácií alebo autorov
Odporučenie autora, ktorého používateľ necitoval a jeho publikácia je z oblasti záujmu necitoval a spolupracuje s autoritou citoval a autor vydal niečo nové neprezeral a doteraz necitoval Ako sa model používateľa aktualizuje systém môže odporúčať publikácie alebo autov publikácií. Priklady odporú

9 Spôsoby prezentácie výsledkov
Zoznam publikácií ohraničený preferenciami používateľa Graf odkazov zobrazenie časti rozsiahleho grafu navigácia oboma smermi Časová os – skupiny spolupracovníkov podľa rokov, prepojenia oblastí Zoznam relevantných publikácií vzhľadom na preferencie používateľa Rozsiahle grafy zobrazuje sa len časť Časová os skupiny spolupracovníkov podľa rokov

10 Problémy Uloženie ontológie Sesame v1.2.6
Chýbajú príkazy pre usporiadanie výsledkov. Chýba možnosť priamo pridávať a mazať Chýba pamäť výsledkov (cache) 1 000 inštancií publikácií – málo prepojené inštancií – výpočtovo nerealizovateľné inštancií – ??? Použiť priame rozhrania vs. spoločná pamäť Niektoré hlavné nedostatky súčasných nástrojov pre uloženie a prístup k ontológii. Z hľadiska časového trvá spracovanie je priamo úmerné veľkosti databázy a prístup pomalý a trvá. Napríklad vykreslenie grafu prepojení citácií s 2000 uzlami, ktoré tvorili publikácie trvalo na testovanom stroji až 60 sekúnd. Načítanie súboru ontológie s inštanciami má okolo 15 MB. Pre rýchly prístup by bolo potrebné načítavať priamo z operačnej pamäti.

11 Architektúra systému Architektúra systému

12 Zdieľanie výsledkov výskumu v portáli na webe so sémantikou
Ciele metódy: Navrhnúť reprezentáciu metadát Predspracovanie metadát Tvorba siete z metadát Analýza vytvorenej siete Vytvorenie skupín výskumníkov s podobnými záujmami Prispôsobovanie obsahu používateľovi Prezentácia výsledkov v portáli Cieľom tohto projektu je efektívne sprístupniť informácie človeku v doméne publikácií. Pod výsledkami výskumu budeme v kontexte tohto projektu rozumieť publikácie. Ako zdroj sme si vybrali publikácie s portálov so zameraním na informatiku. Zdrojmi publikácií boli hlavne dva portály DBLP a digitálna knižnica ACM. Web so sémantikou možno chápať ako rozšírenie súčasného webu. Hlavný rozdiel je v reprezentácii dokumentov kde sa k častiam dokumentu pridáva informácia o sémantike. Metadáta umožňujú popísať sémantiku publikácie. Pre efektívne uloženie metadát bol navrhnutý spôsob ich reprezentácie ontológiou. Základom ontológie je trojica subjekt (napríklad autor) - predikát (napísal) – objekt (publikáciu), subjekt môže mať viacero vzťahov a objekt sa môže ďalej rozvíjať napríklad publikácia A – cituje – publikáciu B.


Stiahnuť ppt "Zdieľanie výsledkov výskumu v portáli na webe so sémantikou"

Podobné prezentácie


Reklamy od Google