Sequenzgenerierung mit gemischten Darstellungen
Die Tokenisierung ist der erste Schritt vieler Aufgaben im Bereich des natürlichen Sprachverstehens (Natural Language Processing, NLP) und spielt eine zentrale Rolle für neuronale NLP-Modelle. Verfahren wie die Byte-Pair-Encoding-(BPE)-Tokenisierung, die die Vokabulargröße erheblich reduzieren und Out-of-Vocabulary-Wörter effektiv behandeln können, haben sich als wirksam erwiesen und werden weithin für Sequenzgenerierungsaufgaben eingesetzt. Obwohl verschiedene Tokenisierungsansätze existieren, gibt es keine allgemein anerkannte Bestform. In dieser Arbeit schlagen wir vor, gemischte Darstellungen aus unterschiedlichen Tokenisierungsmethoden für Sequenzgenerierungsaufgaben zu nutzen, um die Modellleistung durch die einzigartigen Eigenschaften und Vorteile der einzelnen Methoden zu steigern. Konkret führen wir eine neue Modellarchitektur ein, die gemischte Darstellungen integriert, sowie einen Co-Teaching-Algorithmus, um die Vielfalt verschiedener Tokenisierungsmethoden besser auszunutzen. Unser Ansatz erreicht signifikante Verbesserungen bei neuronalen Maschinenübersetzungs-Aufgaben an sechs Sprachpaaren (z. B. Englisch↔Deutsch, Englisch↔Rumänisch) sowie bei einer abstraktiven Zusammenfassungsaufgabe.