Popis:
Aj keď ľudia, najmä v poslednej dobe, začínajú stále viac využívať rôzne nové služby a formy
komunikácie na Internete (od starých známych „chatov“ až po modernejšiu IP telefóniu
a video hovory1
), predsa len pre priemerného používateľa internetu zostávajú hlavným
a najdôležitejším zdrojom informácií webové stránky (web). Na Internete je nepreberné
množstvo informácií a problémom nezvykne byť fakt, že by niečo na webe nebolo, ale spôsob
ako to efektívne nájsť, resp. ako to vôbec nájsť. Rozmer tohto problému môže ilustrovať
štúdia z prvej polovice roku 2005 [46], podľa ktorej je na Internete 11,5 miliardy
indexovateľných stránok, tzn. dostupných tak, že sa k ním dá „preklikať“. Podľa inej štúdie
[45] zase Internete obsahuje 400 - 550 násobne viac stránok v tzv. skrytom webe, čiže na
stránkach, ku ktorým sa za normálnych okolností nedostaneme, pretože na ne nie sú
vytvorené odkazy na iných (verejne dostupných) stránkach.
Kľúčové slová:
identifikátor URI
XML
jazyk OWL
Jena
Apache Lucene
Pannda
klient
triedy
prototyp
výsledky
annotea rozhranie
HTML parser
web so sémantikou
Obsah:
- 1 Úvod -1-
2 Web so sémantikou -4-
2.1 Od syntaktického webu k webu so sémantikou -4-
2.2 Princíp -5-
2.3 Identifikátor URI -6-
2.4 Rámec pre opis zdrojov - RDF -7-
2.4.1 RDF/XML -8-
2.4.2 N3 -9-
2.4.3 N-Triples -10-
2.4.4 Použitie -10-
2.5 RDF Schéma - RDFS -10-
2.6 Ontológia -11-
2.7 Jazyk OWL -12-
2.8 Vrstvový model webu so sémantikou -15-
3 Nástroje pre web so sémantikou -16-
3.1 Protégé -16-
3.2 Jena -17-
3.3 Sesame -17-
3.4 OntoCM - Rozhranie korporatívnej pamäti na ontológiu -18-
4 Poznámkovanie dokumentov -19-
4.1 Transformačné opoznámkovanie -20-
4.2 Jazyková analýza dokumentu -21-
4.2.1 Apache Lucene -22-
4.2.2 SimMetrics -23-
4.2.3 QTag -24-
4.3 Nástroje pre poznámkovanie -24-
4.3.1 KIM -25-
4.3.2 Generálna architektúra textové inžinierstvo - GATE -26-
4.3.3 Annotea -27-
4.3.4 T-Rex -29-
4.3.5 OnTeA -29-
4.3.6 PANKOW -30-
4.3.7 Magpie -31-
4.3.8 Iné nástroje -32-
5 Návrh systému -33-
5.1 Prípad použitia -33-
5.2 Požiadavky na systém -33-
5.2.1 Poznámkovanie pre používateľa -34-
5.2.2 Poznámkovanie používateľom -36-
5.3 Ďalšie požiadavky -36-
5.4 Návrh riešenia poznámkovacieho systému -37-
6 Pannda - poznámkovanie počas sprístupňovania -40-
6.1 Architektúra systému -40-
6.2 Server -41-
6.2.1 Architektúra servera -42-
6.2.2 Príprava dokumentu - HTML parser -42-
6.2.3 Poznámkovanie -44-
6.2.4 Annotea rozhranie -46-
6.2.5 Interaktívne funkcie -46-
6.3 Klient -47-
7 Poznámkovanie -49-
7.1 Vyhľadávanie inštancií -50-
7.1.1 Rozoznanie podľa popisiek -50-
7.1.2 Regulárne výrazy indivíduí -50-
7.2 Vyhľadávanie konceptov -50-
7.2.1 Konceptovo špecifické regulárne výrazy -50-
7.2.2 Konceptovo nezávislé jazykové vzory -51-
7.2.3 Triedy -52-
7.3 Obohatenie poznámok o informácie -52-
7.4 Obohatenie poznámok o akcie -53-
8 Prototyp a testovanie -54-
8.1 Prototyp -54-
8.2 Testovanie -54-
8.2.1 Výsledky -55-
8.2.2 Zhodnotenie -56-
9 Zhodnotenie -59-
Použitá literatúra -61-
Príloha A - Technická dokumentácia -1-
Príloha B - Obsah elektronického média -1-