Neuronale Cross-Lingual Entity Linking

Eine der größten Herausforderungen bei der Entitätserkennung und -verlinkung (Entity Linking, EL) besteht darin, kontextuelle Informationen effektiv zu nutzen, um Verweise auf Wikipedia eindeutig zuzuordnen, die je nach Kontext auf unterschiedliche Entitäten hinweisen können. Das Problem verschärft sich bei der cross-lingualen EL, die es erfordert, Verweise in nicht-englischen Dokumenten mit Einträgen in der englischsprachigen Wikipedia zu verknüpfen: Um textuelle Hinweise über verschiedene Sprachen hinweg zu vergleichen, müssen Ähnlichkeiten zwischen textuellen Fragmenten über Sprachgrenzen hinweg berechnet werden. In dieser Arbeit schlagen wir ein neuronales EL-Modell vor, das feingranulare Ähnlichkeiten und Unterschiede zwischen Anfrage und Kandidatendokument aus mehreren Perspektiven trainiert, kombiniert mit Faltung und Tensor-Netzwerken. Darüber hinaus zeigen wir, dass dieses auf Englisch trainierte System durch überraschend effektive Nutzung multilingualer Embeddings in zero-shot-Lernszenarien auf andere Sprachen angewendet werden kann. Das vorgeschlagene System liefert starke empirische Beweise und erzielt Stand-des-Wissens-Ergebnisse sowohl im Englischen als auch im cross-lingualen Bereich: den spanischen und chinesischen TAC 2015-Datensätzen.