HyperAIHyperAI

Command Palette

Search for a command to run...

テキストで事前学習された音声言語モデル

概要

音声言語モデル(SpeechLM)は、テキストの教師信号を用いずに音声データのみを処理・生成する。本研究では、事前学習済みのテキスト言語モデルを初期化(warm-start)として用いることで、SpeechLMを学習する手法「TWIST」を提案する。自動評価および人間評価の両面から、TWISTが冷スタート(cold-start)によるSpeechLMを総合的に上回ることを示した。また、音声トークナイザー、事前学習済みテキストモデル、学習データサイズといった異なるモデル設計選択の影響を実証的に分析した結果、モデルのスケールとデータのスケールの両方が、より優れた性能を発揮するSpeechLMの構築において重要な役割を果たすことがわかった。本研究の観察に基づき、パラメータ数および学習データ量の観点から、現時点で知られている最も大きなSpeechLMを提示する。さらに、StoryClozeというテキストベンチマークの音声版を2種類導入し、モデル評価の質を向上させ、今後の研究の進展を促進する。音声サンプル、コード、モデルはすべて公開しており、以下のURLからアクセス可能である:https://pages.cs.huji.ac.il/adiyoss-lab/twist/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています