HyperAIHyperAI
vor 2 Monaten

T-Projektion: Hochwertige Annotationen für Sequenzierungsaufgaben

Iker García-Ferrero; Rodrigo Agerri; German Rigau
T-Projektion: Hochwertige Annotationen für Sequenzierungsaufgaben
Abstract

Im Falle der Nichtverfügbarkeit von leicht zugänglichen annotierten Daten für eine gegebene Sequenzbeschriftungsaufgabe und Sprache wurde die Annotationstransferierung als eine der möglichen Strategien vorgeschlagen, um annotierte Daten automatisch zu generieren. Die Annotationstransferierung wird häufig als die Aufgabe formuliert, die Beschriftungen eines bestimmten Bereichs in der Quellsprache auf den entsprechenden Bereich in der Zielsprache in parallelen Korpora zu übertragen. In dieser Arbeit stellen wir T-Projection vor, einen neuen Ansatz für die Annotationstransferierung, der große vortrainierte Text-zu-Text-Sprachmodelle und moderne maschinelle Übersetzungstechnologien nutzt. T-Projection zerlegt die Aufgabe des Beschriftungsübertrags in zwei Teilprozesse: (i) Eine KandidatenGenerierungsschritt, bei dem ein Satz von Projektionskandidaten unter Verwendung eines mehrsprachigen T5-Modells erzeugt wird und (ii) einen KandidatenSelektionschritt, bei dem die erzeugten Kandidaten anhand von Übersetzungs Wahrscheinlichkeiten bewertet werden. Wir haben Experimente an intrinsischen und extrinsischen Aufgaben in 5 indoeuropäischen und 8 afrikanischen Ressourcenarmen Sprachen durchgeführt. Wir zeigen, dass T-Projection deutlich bessere Ergebnisse als frühere Methoden der Annotationstransferierung erzielt. Wir glauben, dass T-Projection dazu beitragen kann, den Mangel an hochwertigen Trainingsdaten für Sequenzbeschriftungsaufgaben automatisch zu mindern. Der Code und die Daten sind öffentlich verfügbar.请注意,为了更好地符合德语的表达习惯,我做了一些结构调整和词汇选择上的优化。例如,“KandidatenGenerierungsschritt” 和 “KandidatenSelektionschritt” 是根据德语习惯构建的复合名词。此外,一些短语如“ressourcenarme Sprachen”(资源贫乏的语言)也被调整为更自然的德语表达方式。

T-Projektion: Hochwertige Annotationen für Sequenzierungsaufgaben | Neueste Forschungsarbeiten | HyperAI