HyperAIHyperAI
vor 10 Tagen

Textuell vortrainierte Sprach-Sprachmodelle

Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi
Textuell vortrainierte Sprach-Sprachmodelle
Abstract

Sprachsprachmodelle (SpeechLMs) verarbeiten und generieren ausschließlich akustische Daten, ohne textuelle Aufsicht. In dieser Arbeit stellen wir TWIST vor, eine Methode zum Training von SpeechLMs mittels eines Warm-Starts aus einem vortrainierten textbasierten Sprachmodell. Wir zeigen anhand sowohl automatisierter als auch menschlicher Bewertungen, dass TWIST ein Cold-Start-SpeechLM überall übertrifft. Wir analysieren empirisch die Auswirkungen verschiedener Modellentwurfsentscheidungen, wie beispielsweise des Sprachtokenizers, des vortrainierten textbasierten Modells und der Datensatzgröße. Wir stellen fest, dass sowohl Modellgröße als auch Datensatzgröße eine entscheidende Rolle bei der Entwicklung leistungsfähigerer SpeechLMs spielen. Aufgrund unserer Beobachtungen präsentieren wir das bisher größte (so weit uns bekannt) SpeechLM sowohl hinsichtlich der Anzahl an Parametern als auch der Trainingsdatenmenge. Zusätzlich führen wir zwei gesprochene Varianten der textbasierten Benchmark StoryCloze ein, um die Modellbewertung weiter zu verbessern und zukünftige Forschung in diesem Bereich voranzutreiben. Wir stellen Sprachbeispiele, Code und Modelle öffentlich zur Verfügung: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.