HyperAIHyperAI

Command Palette

Search for a command to run...

Textuell vortrainierte Sprach-Sprachmodelle

Zusammenfassung

Sprachsprachmodelle (SpeechLMs) verarbeiten und generieren ausschließlich akustische Daten, ohne textuelle Aufsicht. In dieser Arbeit stellen wir TWIST vor, eine Methode zum Training von SpeechLMs mittels eines Warm-Starts aus einem vortrainierten textbasierten Sprachmodell. Wir zeigen anhand sowohl automatisierter als auch menschlicher Bewertungen, dass TWIST ein Cold-Start-SpeechLM überall übertrifft. Wir analysieren empirisch die Auswirkungen verschiedener Modellentwurfsentscheidungen, wie beispielsweise des Sprachtokenizers, des vortrainierten textbasierten Modells und der Datensatzgröße. Wir stellen fest, dass sowohl Modellgröße als auch Datensatzgröße eine entscheidende Rolle bei der Entwicklung leistungsfähigerer SpeechLMs spielen. Aufgrund unserer Beobachtungen präsentieren wir das bisher größte (so weit uns bekannt) SpeechLM sowohl hinsichtlich der Anzahl an Parametern als auch der Trainingsdatenmenge. Zusätzlich führen wir zwei gesprochene Varianten der textbasierten Benchmark StoryCloze ein, um die Modellbewertung weiter zu verbessern und zukünftige Forschung in diesem Bereich voranzutreiben. Wir stellen Sprachbeispiele, Code und Modelle öffentlich zur Verfügung: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp