Falcon 2.0: Ein Werkzeug zur Entitäts- und Relationen-Verknüpfung über Wikidata

Die Gemeinschaft des Natural Language Processing (NLP) hat maßgeblich zur Lösung von Aufgaben zur Entität- und Relationserkennung im Text beigetragen und potenziell deren Verknüpfung mit passenden Einträgen in Wissensgraphen (Knowledge Graphs, KGs) ermöglicht. Angesichts von Wikidata als Hintergrund-Wissensgraph bleibt die Anzahl an Tools zur Verknüpfung von Wissen im Text mit Wikidata jedoch begrenzt. In diesem Artikel stellen wir Falcon 2.0 vor, das erste gemeinsame Werkzeug zur Entitäts- und Relationenverknüpfung über Wikidata. Falcon 2.0 erhält einen kurzen englischsprachigen Text als Eingabe und liefert eine nach Rang geordnete Liste von Entitäten und Relationen aus, jeweils annotiert mit geeigneten Kandidaten aus Wikidata. Die Kandidaten werden durch ihre Internationalized Resource Identifier (IRI) in Wikidata repräsentiert. Falcon 2.0 nutzt für die Erkennungsaufgabe einen englischsprachigen Sprachmodell (z. B. N-Gram-Tiling und N-Gram-Splitting) und anschließend einen Optimierungsansatz für die Verknüpfungsaufgabe. Wir haben die Leistungsfähigkeit von Falcon 2.0 anhand von Wikidata empirisch untersucht und konnten feststellen, dass es alle bestehenden Baselines übertrifft. Falcon 2.0 ist öffentlich zugänglich und kann von der Forschungsgemeinschaft wiederverwendet werden; alle erforderlichen Anleitungen sind in unserem GitHub-Repository umfassend dokumentiert. Zudem präsentieren wir eine Online-API, die ohne technische Fachkenntnisse genutzt werden kann. Falcon 2.0 sowie die zugrundeliegenden Wissensbasen sind als Ressourcen unter https://labs.tib.eu/falcon/falcon2/ verfügbar.