HyperAIHyperAI

Command Palette

Search for a command to run...

LAST: Sprachmodellbasierte Sprachtokenisierung

Arnon Turetzky; Yossi Adi

Zusammenfassung

Die Sprachtokenisierung bildet die Grundlage von Sprachmodellen (LM) und ermöglicht es ihnen, verschiedene Aufgaben wie sprachliche Modellierung, Text-zu-Sprache und Sprache-zu-Text zu erfüllen. Die meisten Sprachtokenisierer werden unabhängig vom Trainingsprozess der Sprachmodelle trainiert und stützen sich auf getrennte akustische Modelle und Quantisierungsmethoden. Dieser Ansatz kann zu einem Missverhältnis zwischen dem Tokenisierungsprozess und dessen späterer Verwendung führen. In dieser Studie schlagen wir einen neuen Ansatz vor, um einen Sprachtokenisierer durch das Nutzen von Zielfunktionen aus vortrainierten textbasierten LMs zu trainieren. Wir plädieren für die Integration dieses Ziels in den Prozess des Lernens diskreter sprachlicher Darstellungen. Unser Ziel ist es, Merkmale eines vortrainierten Sprachmodells in einen neuen Merkmalsraum zu transformieren, der eine bessere Clustering für sprachliche LMs ermöglicht. Wir untersuchen empirisch den Einfluss verschiedener Modellgestaltungsoptionen, darunter die Größe des sprachlichen Vokabulars und die Größe des textbasierten LMs. Unsere Ergebnisse zeigen, dass die vorgeschlagene Tokenisierungsmethode sowohl bei der sprachlichen Modellierung als auch bei der Umwandlung von Sprache in Text die evaluierten Baseline-Methoden übertrifft. Von größerer Bedeutung ist jedoch, dass im Gegensatz zu früheren Arbeiten die vorgeschlagene Methode die Nutzung eines einzigen vortrainierten LMs für die Verarbeitung sowohl sprachlicher als auch textbasierter Eingaben ermöglicht, was sie von herkömmlichen Tokenisierungsansätzen abhebt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp