HyperAIHyperAI

Command Palette

Search for a command to run...

Entitätsverknüpfung in 100 Sprachen

Jan A. Botha Zifei Shan Daniel Gillick

Zusammenfassung

Wir schlagen eine neue Formulierung für die mehrsprachige Entitätenverknüpfung vor, bei der sprachspezifische Erwähnungen auf eine sprachunabhängige Wissensbasis verweisen. In diesem neuen Ansatz trainieren wir einen Dual-Encoder, wobei wir auf vorherige Arbeiten aufbauen, jedoch verbesserte Merkmalsdarstellungen, eine optimierte Negative-Mining-Strategie sowie eine ergänzende Aufgabe zur Entitätenpaarung einsetzen, um ein einziges Entitätenretrieval-Modell zu entwickeln, das mehr als 100 Sprachen und 20 Millionen Entitäten abdeckt. Das Modell erreicht Leistungen, die die bisherigen State-of-the-Art-Ergebnisse bei weitaus eingeschränkteren, mehrsprachigen Verknüpfungsaufgaben deutlich übertreffen. Seltene Entitäten und Sprachen mit geringen Ressourcen stellen bei dieser Skalierung besondere Herausforderungen dar; daher plädieren wir für eine stärkere Betonung von Zero- und Few-Shot-Evaluation. Dazu präsentieren wir Mewsli-9, eine neue, große multilinguale Datensammlung (http://goo.gle/mewsli-dataset), die an unseren Ansatz angepasst ist, und zeigen, wie eine frequenzbasierte Analyse entscheidende Erkenntnisse für die Verbesserung unseres Modells und des Trainingsprozesses lieferte.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp