vor 2 Monaten

mLUKE: Die Kraft der Entitätsrepräsentationen in mehrsprachigen pretraineden Sprachmodellen

Ryokan Ri; Ikuya Yamada; Yoshimasa Tsuruoka

Abstract

Neuere Studien haben gezeigt, dass mehrsprachige vortrainierte Sprachmodelle durch die Verwendung von cross-lingualen Ausrichtungsinformationen aus Wikipedia-Entitäten effektiv verbessert werden können. Bestehende Methoden nutzen jedoch diese Entitätsinformationen nur während des Vortrainings und verwenden sie nicht explizit in Downstream-Aufgaben. In dieser Studie untersuchen wir die Effektivität der Nutzung von Entitätsrepräsentationen für Downstream-cross-linguale Aufgaben. Wir trainieren ein mehrsprachiges Sprachmodell mit 24 Sprachen unter Verwendung von Entitätsrepräsentationen und zeigen, dass das Modell in verschiedenen cross-lingualen Transferaufgaben konsistent bessere Ergebnisse erzielt als wortbasierte vortrainierte Modelle. Darüber hinaus analysieren wir das Modell, und der entscheidende Erkenntnis ist, dass die Einbeziehung von Entitätsrepräsentationen in die Eingabe es ermöglicht, mehr sprachunabhängige Merkmale zu extrahieren. Wir bewerten das Modell auch anhand einer mehrsprachigen Cloze-Prompt-Aufgabe mit dem mLAMA-Datensatz. Wir zeigen, dass entitätsbasierte Prompts korrektes faktisches Wissen wahrscheinlicher hervorrufen als alleinige Wortrepräsentationen. Unser Quellcode und unsere vortrainierten Modelle sind unter https://github.com/studio-ousia/luke verfügbar.