HyperAIHyperAI

Command Palette

Search for a command to run...

Massiv multilinguale Satzrepräsentationen für Zero-Shot-Cross-Lingual-Transfer und darüber hinaus

["name": "Mikel Artetxe" "affiliation": "University of the Basque Country (UPV/EHU)*" "email": "[email protected]" "name": "Holger Schwenk" "affiliation": "Facebook AI Research" "email": "[email protected]"]

Zusammenfassung

Wir stellen eine Architektur vor, die gemeinsame mehrsprachige Satzrepräsentationen für 93 Sprachen erlernen kann, die zu mehr als 30 verschiedenen Sprachfamilien gehören und in 28 verschiedenen Schriftsystemen geschrieben werden. Unser System verwendet einen einzelnen BiLSTM-Encoder mit einem geteilten BPE-Vokabular für alle Sprachen, der mit einem zusätzlichen Decoder gekoppelt ist und auf öffentlich verfügbaren parallelen Korpora trainiert wird. Dies ermöglicht es uns, einen Klassifizierer auf den resultierenden Einbettungen unter Verwendung nur englisch annotierter Daten zu trainieren und ihn auf jede der 93 Sprachen ohne Änderungen zu übertragen. Unsere Experimente im Bereich des cross-lingualen natürlichsprachlichen Schlussfolgerns (XNLI-Datensatz), der cross-lingualen Dokumentenklassifikation (MLDoc-Datensatz) und der parallelen Korpusauswertung (BUCC-Datensatz) zeigen die Effektivität unseres Ansatzes. Wir führen außerdem einen neuen Testdatensatz von ausgerichteten Sätzen in 112 Sprachen ein und zeigen, dass unsere Satzeinbettungen auch bei ressourcenarmen Sprachen starke Ergebnisse bei der mehrsprachigen Ähnlichkeitssuche erzielen. Unsere Implementierung, der vortrainierte Encoder und der mehrsprachige Testdatensatz sind unter https://github.com/facebookresearch/LASER verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp