3ヶ月前

インストラクション微調整済みLLMとラティント・ディフュージョンモデルを用いたテキストからオーディオ生成

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria

要約

近年の大規模言語モデル（LLM）の膨大なスケールにより、インストラクションベースやチェーン・オブ・シンキングに基づくファインチューニングといった興味深い特性が実現可能となり、多くの自然言語処理（NLP）タスクにおいてゼロショットおよび少数ショットの性能が著しく向上した。このような成功に触発され、本研究では、テキストから音声を生成するテキストtoオーディオ（TTA）生成タスクにおいて、インストラクションチューニング済みの大規模言語モデルFlan-T5をテキストエンコーダとして採用した。従来のTTA研究では、テキスト・オーディオの統合エンコーダを事前学習するか、T5のようなインストラクションチューニングされていないモデルを用いることが一般的であった。一方、本研究で提案する潜在拡散モデル（LDM）ベースのアプローチTANGOは、訓練データセットが従来の手法の約1/63という極めて小さな規模でありながら、テキストエンコーダを固定したままにした状態で、AudioCapsテストセットにおいて多数の指標で最先端のAudioLDMを上回り、残りの指標では同等の性能を示した。この性能向上は、訓練データセットの拡張において音圧レベルに基づく音声合成手法を採用したことに起因している可能性がある。これに対して、従来の手法ではランダムな混合が用いられてきた。