LAST: Sprachmodellbasierte Sprachtokenisierung

Die Sprachtokenisierung bildet die Grundlage von Sprachmodellen (LM) und ermöglicht es ihnen, verschiedene Aufgaben wie sprachliche Modellierung, Text-zu-Sprache und Sprache-zu-Text zu erfüllen. Die meisten Sprachtokenisierer werden unabhängig vom Trainingsprozess der Sprachmodelle trainiert und stützen sich auf getrennte akustische Modelle und Quantisierungsmethoden. Dieser Ansatz kann zu einem Missverhältnis zwischen dem Tokenisierungsprozess und dessen späterer Verwendung führen. In dieser Studie schlagen wir einen neuen Ansatz vor, um einen Sprachtokenisierer durch das Nutzen von Zielfunktionen aus vortrainierten textbasierten LMs zu trainieren. Wir plädieren für die Integration dieses Ziels in den Prozess des Lernens diskreter sprachlicher Darstellungen. Unser Ziel ist es, Merkmale eines vortrainierten Sprachmodells in einen neuen Merkmalsraum zu transformieren, der eine bessere Clustering für sprachliche LMs ermöglicht. Wir untersuchen empirisch den Einfluss verschiedener Modellgestaltungsoptionen, darunter die Größe des sprachlichen Vokabulars und die Größe des textbasierten LMs. Unsere Ergebnisse zeigen, dass die vorgeschlagene Tokenisierungsmethode sowohl bei der sprachlichen Modellierung als auch bei der Umwandlung von Sprache in Text die evaluierten Baseline-Methoden übertrifft. Von größerer Bedeutung ist jedoch, dass im Gegensatz zu früheren Arbeiten die vorgeschlagene Methode die Nutzung eines einzigen vortrainierten LMs für die Verarbeitung sowohl sprachlicher als auch textbasierter Eingaben ermöglicht, was sie von herkömmlichen Tokenisierungsansätzen abhebt.