12日前

音声生成のためのデータとTransformerの制御

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez
音声生成のためのデータとTransformerの制御
要約

環境音生成のスケーラビリティは、データ不足、キャプション品質の低さ、およびモデルアーキテクチャのスケーラビリティ制限によって阻害されてきた。本研究では、データおよびモデルの両面でのスケーリングを進展させることで、これらの課題に取り組む。まず、環境音生成に特化した効率的かつスケーラブルなデータセット収集パイプラインを提案し、4700万を超える音声クリップを含む、現在最も大きな環境音・テキストデータセット「AutoReCap-XL」を構築した。高品質なテキストアノテーションの提供のため、自動音声キャプションモデル「AutoCap」を提案する。このモデルはQ-Formerモジュールを採用し、音声メタデータを活用することで、キャプション品質を大幅に向上させ、CIDErスコア83.2を達成。これは従来のキャプションモデル比で3.2%の向上である。さらに、スケーラブルなTransformerベースの音声生成アーキテクチャ「GenAu」を提案し、パラメータ数を12.5億にまで拡張した。合成キャプションを用いたデータスケーリングおよびモデルサイズのスケーリングの両面で、その有効性を実証した。類似の規模とデータ量で訓練されたベースライン音声生成モデルと比較して、GenAuはFADスコアで4.7%、IS(Inception Score)で11.1%、CLAPスコアで13.5%の顕著な改善を達成した。本研究のコード、モデルチェックポイント、およびデータセットは公開されている。

音声生成のためのデータとTransformerの制御 | 最新論文 | HyperAI超神経