10日前
テキストで事前学習された音声言語モデル
Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi

要約
音声言語モデル(SpeechLM)は、テキストの教師信号を用いずに音声データのみを処理・生成する。本研究では、事前学習済みのテキスト言語モデルを初期化(warm-start)として用いることで、SpeechLMを学習する手法「TWIST」を提案する。自動評価および人間評価の両面から、TWISTが冷スタート(cold-start)によるSpeechLMを総合的に上回ることを示した。また、音声トークナイザー、事前学習済みテキストモデル、学習データサイズといった異なるモデル設計選択の影響を実証的に分析した結果、モデルのスケールとデータのスケールの両方が、より優れた性能を発揮するSpeechLMの構築において重要な役割を果たすことがわかった。本研究の観察に基づき、パラメータ数および学習データ量の観点から、現時点で知られている最も大きなSpeechLMを提示する。さらに、StoryClozeというテキストベンチマークの音声版を2種類導入し、モデル評価の質を向上させ、今後の研究の進展を促進する。音声サンプル、コード、モデルはすべて公開しており、以下のURLからアクセス可能である:https://pages.cs.huji.ac.il/adiyoss-lab/twist/。