vor 2 Monaten

Modell- und Datentransfer für die cross-linguale Sequenzierungsbewertung in zero-resource-Einstellungen

Iker García-Ferrero; Rodrigo Agerri; German Rigau

Abstract

Zero-Resource Cross-Lingual Transfer Ansätze zielen darauf ab, überwachte Modelle von einer Quellsprache auf nicht gekennzeichnete Zielsprachen anzuwenden. In dieser Arbeit führen wir eine detaillierte Untersuchung der beiden bisher verwendeten Haupttechniken für cross-lingual zero-resource Sequenzetikettierung durch, die entweder auf Daten- oder Modelltransfer basieren. Obwohl frühere Forschungen Übersetzung und Annotationstransfer (datenbasiertes cross-lingual Transfer) als effektive Technik für cross-lingual Sequenzetikettierung vorgeschlagen haben, zeigen wir in dieser Arbeit experimentell, dass hochkapazitäre mehrsprachige Sprachmodelle in einem zero-shot Szenario (modellbasierter cross-lingual Transfer) datenbasierte cross-lingual Transferansätze konsequent übertreffen. Eine detaillierte Analyse unserer Ergebnisse deutet darauf hin, dass dies möglicherweise auf wichtige Unterschiede im Sprachgebrauch zurückzuführen ist. Genauer gesagt erzeugt maschinelle Übersetzung oft ein textuelles Signal, das sich von dem unterscheidet, dem die Modelle bei Verwendung von Goldstandard-Daten ausgesetzt sind, was sowohl den Feinabstimmungsprozess als auch den Evaluationsprozess beeinflusst. Unsere Ergebnisse deuten zudem darauf hin, dass datenbasierte cross-lingual Transferansätze weiterhin eine wettbewerbsfähige Option bleiben, wenn hochkapazitäre mehrsprachige Sprachmodelle nicht verfügbar sind.