Ontology Alignment

      Ontology Alignment

          Ontology Alignment

              Ontology Alignment

                  Ontology Alignment

                      Ontology Alignment

                          Ontology Alignment

                              Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

                              Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

                              • Ontologien verschmelzen (Ontology-Merging)
                              • Abfragen (Queries) beantworten
                              • Daten übersetzen
                              • und dadurch eine Navigation durch das Semantic Web erlauben

                              Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

                              Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

                              SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

                              Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

                              Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

                              Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

                              LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

                              Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

                              Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

                              Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

                              Relaxation Labeling

                               

                              Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

                              Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

                              Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

                              OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

                              Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

                          Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

                          Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

                          • Ontologien verschmelzen (Ontology-Merging)
                          • Abfragen (Queries) beantworten
                          • Daten übersetzen
                          • und dadurch eine Navigation durch das Semantic Web erlauben

                          Beispiele

                          Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

                          ONION

                          Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

                          SMART / Prompt, Anchor-Prompt

                          SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

                          Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

                          Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

                          LSD/GLUE

                          Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

                          LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

                          Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

                          Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

                          Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

                          Relaxation Labeling

                           

                          Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

                          Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

                          OLA

                          Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

                          OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

                          FOAM

                          Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

                      Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

                      Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

                      • Ontologien verschmelzen (Ontology-Merging)
                      • Abfragen (Queries) beantworten
                      • Daten übersetzen
                      • und dadurch eine Navigation durch das Semantic Web erlauben

                      Beispiele

                      Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

                      ONION

                      Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

                      SMART / Prompt, Anchor-Prompt

                      SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

                      Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

                      Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

                      LSD/GLUE

                      Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

                      LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

                      Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

                      Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

                      Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

                      Relaxation Labeling

                       

                      Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

                      Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

                      OLA

                      Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

                      OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

                      FOAM

                      Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

                  Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

                  Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

                  • Ontologien verschmelzen (Ontology-Merging)
                  • Abfragen (Queries) beantworten
                  • Daten übersetzen
                  • und dadurch eine Navigation durch das Semantic Web erlauben

                  Beispiele

                  Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

                  ONION

                  Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

                  SMART / Prompt, Anchor-Prompt

                  SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

                  Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

                  Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

                  LSD/GLUE

                  Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

                  LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

                  Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

                  Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

                  Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

                  Relaxation Labeling

                   

                  Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

                  Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

                  OLA

                  Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

                  OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

                  FOAM

                  Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

              Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

              Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

              • Ontologien verschmelzen (Ontology-Merging)
              • Abfragen (Queries) beantworten
              • Daten übersetzen
              • und dadurch eine Navigation durch das Semantic Web erlauben

              Beispiele

              Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

              ONION

              Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

              SMART / Prompt, Anchor-Prompt

              SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

              Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

              Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

              LSD/GLUE

              Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

              LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

              Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

              Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

              Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

              Relaxation Labeling

               

              Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

              Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

              OLA

              Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

              OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

              FOAM

              Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

          Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

          Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

          • Ontologien verschmelzen (Ontology-Merging)
          • Abfragen (Queries) beantworten
          • Daten übersetzen
          • und dadurch eine Navigation durch das Semantic Web erlauben

          Beispiele

          Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

          ONION

          Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

          SMART / Prompt, Anchor-Prompt

          SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

          Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

          Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

          LSD/GLUE

          Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

          LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

          Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

          Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

          Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

          Relaxation Labeling

           

          Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

          Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

          OLA

          Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

          OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

          FOAM

          Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

      Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

      Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

      • Ontologien verschmelzen (Ontology-Merging)
      • Abfragen (Queries) beantworten
      • Daten übersetzen
      • und dadurch eine Navigation durch das Semantic Web erlauben

      Beispiele

      Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

      ONION

      Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

      SMART / Prompt, Anchor-Prompt

      SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

      Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

      Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

      LSD/GLUE

      Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

      LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

      Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

      Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

      Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

      Relaxation Labeling

       

      Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

      Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

      OLA

      Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

      OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

      FOAM

      Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

  • Ontologien verschmelzen (Ontology-Merging)
  • Abfragen (Queries) beantworten
  • Daten übersetzen
  • und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Relaxation Labeling

 

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

top