HyperAIHyperAI
vor 17 Tagen

MuCoT: Multilinguale kontrastive Training für Frage-Antwort-Systeme in sprachlich armen Sprachen

Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly, Karthik Nandakumar
MuCoT: Multilinguale kontrastive Training für Frage-Antwort-Systeme in sprachlich armen Sprachen
Abstract

Die Genauigkeit von englischsprachigen Frage-Antwort-Systemen (QA) hat in den letzten Jahren erheblich zugenommen, insbesondere durch den Einsatz von Transformer-basierten Modellen (z. B. BERT). Diese Modelle werden zunächst selbstüberwacht mit großen Korpora aus englischen Texten vortrainiert und anschließend anhand umfangreicher englischer QA-Datensätze (z. B. SQuAD) feinabgestimmt. Für die meisten anderen Sprachen stehen jedoch Datensätze dieser Größenordnung nicht zur Verfügung. Häufig werden mehrsprachige BERT-basierte Modelle (mBERT) eingesetzt, um Wissen von sprachlich reich ausgestatteten Sprachen auf sprachlich benachteiligte Sprachen zu übertragen. Da diese Modelle mit riesigen, mehrsprachigen Textkorpora vortrainiert werden, lernen sie typischerweise sprachunabhängige Embeddings für Tokens verschiedener Sprachen. Die direkte Feinabstimmung eines mBERT-basierten QA-Systems für sprachlich benachteiligte Sprachen ist jedoch aufgrund des Mangels an Trainingsdaten herausfordernd. In dieser Arbeit ergänzen wir die QA-Beispiele der Zielsprache durch Übersetzung und Transliteration in andere Sprachen und nutzen die erweiterten Daten, um ein bereits auf Englisch vortrainiertes mBERT-basiertes QA-Modell zu feinabstimmen. Experimente am Google ChAII-Datensatz zeigen, dass die Feinabstimmung des mBERT-Modells mit Übersetzungen aus derselben Sprachfamilie die Leistung der Frage-Antwort-Systeme verbessert, während sich die Leistung bei Übersetzungen aus unterschiedlichen Sprachfamilien verschlechtert. Wir zeigen zudem, dass die Einführung eines kontrastiven Verlustes zwischen den Merkmalspaaren aus übersetzten Frage-Kontext-Beispielen während des Feinabstimmungsprozesses diese Verschlechterung bei mehrsprachigen Übersetzungen verhindert und zu einer marginalen Verbesserung führt. Der Quellcode für diese Arbeit ist unter https://github.com/gokulkarthik/mucot verfügbar.