Die Überbrückung der Domänenlücke bei der cross-lingual Dokumentenklassifizierung

Die Knappheit an etikettierten Trainingsdaten verhindert oft die Internationalisierung von NLP-Modellen auf mehrere Sprachen. Neuerliche Fortschritte im Bereich des cross-lingual understanding (XLU) haben in dieser Hinsicht Fortschritte gemacht und versuchen, die sprachlichen Barrieren durch sprachuniverselle Darstellungen zu überwinden. Dennoch würden Modelle, die in einer Sprache trainiert wurden, aufgrund der natürlichen Domänenverschiebung zwischen Sprachen und Kulturen nicht perfekt in eine andere Sprache übertragen werden können. Wir betrachten das Szenario des semi-supervisierten cross-lingual understanding, bei dem etikettierte Daten in einer Quellsprache (Englisch) verfügbar sind, während nur unetikettierte Daten in der Zielsprache vorliegen. Wir kombinieren moderne cross-linguale Methoden mit kürzlich vorgeschlagenen Ansätzen für schwach supervisiertes Lernen, wie unsupervisiertes Pre-Training und unsupervierte Datenverstärkung, um gleichzeitig sowohl den Sprach- als auch den Domänenunterschied in XLU zu schließen. Wir zeigen, dass das Überwinden des Domänenunterschieds entscheidend ist. Im Vergleich zu starken Baselines verbessern wir die Leistung und erreichen einen neuen Stand der Technik für die cross-linguale Dokumentklassifizierung.