HyperAIHyperAI

Command Palette

Search for a command to run...

mLUKE: Die Kraft der Entitätsrepräsentationen in mehrsprachigen pretraineden Sprachmodellen

Ryokan Ri Ikuya Yamada Yoshimasa Tsuruoka

Zusammenfassung

Neuere Studien haben gezeigt, dass mehrsprachige vortrainierte Sprachmodelle durch die Verwendung von cross-lingualen Ausrichtungsinformationen aus Wikipedia-Entitäten effektiv verbessert werden können. Bestehende Methoden nutzen jedoch diese Entitätsinformationen nur während des Vortrainings und verwenden sie nicht explizit in Downstream-Aufgaben. In dieser Studie untersuchen wir die Effektivität der Nutzung von Entitätsrepräsentationen für Downstream-cross-linguale Aufgaben. Wir trainieren ein mehrsprachiges Sprachmodell mit 24 Sprachen unter Verwendung von Entitätsrepräsentationen und zeigen, dass das Modell in verschiedenen cross-lingualen Transferaufgaben konsistent bessere Ergebnisse erzielt als wortbasierte vortrainierte Modelle. Darüber hinaus analysieren wir das Modell, und der entscheidende Erkenntnis ist, dass die Einbeziehung von Entitätsrepräsentationen in die Eingabe es ermöglicht, mehr sprachunabhängige Merkmale zu extrahieren. Wir bewerten das Modell auch anhand einer mehrsprachigen Cloze-Prompt-Aufgabe mit dem mLAMA-Datensatz. Wir zeigen, dass entitätsbasierte Prompts korrektes faktisches Wissen wahrscheinlicher hervorrufen als alleinige Wortrepräsentationen. Unser Quellcode und unsere vortrainierten Modelle sind unter https://github.com/studio-ousia/luke verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp