Audiobox:自然言語プロンプトを用いた統合型音声生成

音声は私たちの生活において不可欠な要素であるが、その作成には専門知識が求められ、時間もかかります。過去1年間、研究コミュニティは、より強力な生成モデルの採用とデータのスケーリングにより、単一モダリティ(音声、音響、音楽)向けの大規模音声生成モデルの性能向上に大きな進展を遂げてきました。しかし、これらのモデルには複数の側面で制御性の欠如が見られます。例えば、音声生成モデルはテキスト記述に基づく新しいスタイルの音声を合成できず、屋外環境など特定のドメインへのカバー範囲も限定的です。また、音響生成モデルは「人が話している」といった粗い記述に基づく制御しか行えず、結果として単調な人間の声(ごつごつした声)しか生成できません。本論文では、フローマッチングに基づく統一型モデル「Audiobox」を提案します。このモデルは、多様な音声モダリティの生成が可能であり、記述ベースと例示ベースのプロンプト設計により制御性を高め、音声と音響生成の枠組みを統一しています。音声生成時には、発話文(トランスクリプト)、声質(ボーカル)、その他の音声スタイルを独立して制御することが可能になっています。また、ラベル付きデータが限られている状況下でもモデルの汎化性能を向上させるため、大規模なラベルなし音声データ上で自己教師付きのインフィリング(穴埋め)目的関数を用いた事前学習を導入しています。Audioboxは、音声生成および音響生成の新基準を樹立しました。ゼロショットTTS(音声合成)においてLibrispeechデータセットで0.745の類似度を達成し、テキストから音響を生成するタスク(AudioCaps)ではFAD(Fréchet Audio Distance)が0.77という結果を記録しました。さらに、新しい声質や音響スタイルを持つ音声の生成という新たなアプローチを可能にしました。さらに、フローマッチングにおける標準的なODEソルバーと比較して、生成速度を25倍以上に高速化する「Bespoke Solvers」を統合することで、性能の低下を伴わず高速な生成が実現しました。デモは以下のURLで公開されています:https://audiobox.metademolab.com/