l-ray.de: Abstract

Das Internet ist ein buntes Netz von ungeordneten, jedoch lose miteinander verbundenen Informationen. Die Datenquellen besitzen dabei oft völlig unterschiedliche Strukturen. Auf semi- und unstrukturierte Daten wie Web-Dokumente sind keine typischen Datenbankanweisungen ausführbar. Durch Anreicherung mit Strukturen, wie es in aktuellen XML- und RDF-Formaten der Fall ist, können Informationen gefunden, entschlüsselt und miteinander in Verbindung gebracht werden.

Die unterschiedliche Strukturierung von Datenquellen erschwert die schnelle Informationsabfrage bei herkömmlichen Abfragetechnologien. Es ist bisher nicht möglich, eine optimale Ausnutzung sämtlicher Datenquellen bei vertretbarem Aufwand zu realisieren.

Fast jedes Umfeld nutzt eigene syntaktische Strukturen und eine eigene Wortwahl. Keine Datensammlung selbst stellt „Weltwissen“ dar, sondern stets eine aus bestimmten Zielen getriebene und auf subjektiven Eindrücken beruhende Sicht zu einem Thema.

Mit herkömmlichen Datenbank-Abfragesprachen ist eine Wissensgewinnung aus dem Netz nicht optimal umsetzbar, da man möglichst von jeder verwendeten Datenquelle Kenntnisse über deren strukturellen und sprachlichen Aufbau besitzen muss. Das schränkt die Anzahl der verwendbaren Datenquellen für den Nutzer ein.

Aus diesem Problem heraus entwickelte sich die Gemeinschaft „Semantic Web“. Sie versucht durch intelligentes Extrahieren und Kombinieren verschiedenster Datenquellen, Wissen neu zu generieren, um so zu konkreten und umfassenden Abfrageergebnissen zu gelangen. Der Anwender erhält statt einer Liste mit möglichen Verweisen eine konkrete Aussage auf die eigentliche Frage.

In dieser Arbeit wird die Aufbereitung verschiedener Daten aus unterschiedlichen Quellen zu teilweise gleichen Veranstaltungen am Beispiel eines Veranstaltungsvermittlers gezeigt. Er arbeitet auf der Grundlage der Web-Anfragesprache „Xcerpt“ und setzt die gewonnenen Daten sinnvoll und anwenderfreundlich zusammen.

Abstract

xcerpt