12日前

AudioGen:テキスト誘導型音声生成

Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi
AudioGen:テキスト誘導型音声生成
要約

テキストによる記述キャプションに基づいて音声サンプルを生成する問題に取り組む。本研究では、テキスト入力を条件として音声サンプルを生成する自己回帰型生成モデル「AudioGen」を提案する。AudioGenは学習された離散音声表現を用いて動作する。テキストから音声を生成するタスクは、複数の課題を伴う。音声が媒体を通じて伝播する性質上、「音源」の区別が困難となる(例えば、複数の人物が同時に話している状況での分離)。さらに、現実世界の録音環境(背景ノイズ、残響など)によってこの課題は複雑化する。また、テキストラベルの不足により、モデルのスケーラビリティが制限されるという制約がある。最後に、高精細音声のモデリングには高サンプリングレートでの音声符号化が必要となるため、極めて長い時系列データを扱う必要が生じる。こうした課題を緩和するため、異なる音声サンプルを混合する拡張手法を提案し、モデルが内部的に複数の音源を分離する能力を学習できるようにする。テキスト-音声データポイントの不足に対処するため、さまざまな音声タイプとテキストラベルを含む合計10のデータセットを収集・構築した。推論速度の向上のため、マルチストリームモデリングの活用を検討し、短い時系列で類似のビットレートおよび知覚的品質を維持できるようにした。テキストへの適合性を向上させるために、分類器フリー・ガイドランス(classifier-free guidance)を適用した。評価対象のベースラインと比較して、AudioGenは客観的指標および主観的評価の両面で優れた性能を示した。最後に、提案手法が条件付きおよび無条件の音声継続生成(audio continuation generation)を実現できるかについても検証した。サンプルはこちら:https://felixkreuk.github.io/audiogen

AudioGen:テキスト誘導型音声生成 | 最新論文 | HyperAI超神経