Entitätsverknüpfung in 100 Sprachen

Wir schlagen eine neue Formulierung für die mehrsprachige Entitätenverknüpfung vor, bei der sprachspezifische Erwähnungen auf eine sprachunabhängige Wissensbasis verweisen. In diesem neuen Ansatz trainieren wir einen Dual-Encoder, wobei wir auf vorherige Arbeiten aufbauen, jedoch verbesserte Merkmalsdarstellungen, eine optimierte Negative-Mining-Strategie sowie eine ergänzende Aufgabe zur Entitätenpaarung einsetzen, um ein einziges Entitätenretrieval-Modell zu entwickeln, das mehr als 100 Sprachen und 20 Millionen Entitäten abdeckt. Das Modell erreicht Leistungen, die die bisherigen State-of-the-Art-Ergebnisse bei weitaus eingeschränkteren, mehrsprachigen Verknüpfungsaufgaben deutlich übertreffen. Seltene Entitäten und Sprachen mit geringen Ressourcen stellen bei dieser Skalierung besondere Herausforderungen dar; daher plädieren wir für eine stärkere Betonung von Zero- und Few-Shot-Evaluation. Dazu präsentieren wir Mewsli-9, eine neue, große multilinguale Datensammlung (http://goo.gle/mewsli-dataset), die an unseren Ansatz angepasst ist, und zeigen, wie eine frequenzbasierte Analyse entscheidende Erkenntnisse für die Verbesserung unseres Modells und des Trainingsprozesses lieferte.