12日前
検索拡張型テキストtoオーディオ生成
Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang

要約
近年のテキストから音声(TTA)生成技術の進展にもかかわらず、本研究では、AudioCapsなどのクラス分布が不均衡なデータセット上で学習された最先端モデル(例:AudioLDM)が、生成性能においてバイアスを示すことを示す。具体的には、一般的な音声クラスの生成において優れた性能を発揮する一方で、希少な音声クラスの生成においては性能が劣化し、結果として全体的な生成性能が低下する。この問題を「長尾型テキストから音声生成(long-tailed text-to-audio generation)」と呼ぶ。この課題に対処するため、TTAモデル向けにシンプルなリトリーバル拡張アプローチを提案する。具体的には、入力テキストプロンプトに対して、まず対照的言語音声事前学習(Contrastive Language Audio Pretraining: CLAP)モデルを用いて関連するテキスト-音声ペアを検索する。得られた音声-テキストデータの特徴量を追加的な条件として用い、TTAモデルの学習をガイドする。本手法をAudioLDMに組み込み、拡張されたシステムをRe-AudioLDMと命名する。AudioCapsデータセットにおける実験では、Re-AudioLDMは最先端のFrechet Audio Distance(FAD)1.37を達成し、既存手法を大きく上回る性能を示した。さらに、Re-AudioLDMが複雑なシーン、希少な音声クラス、さらには未観測の音声タイプに対しても現実的な音声を生成可能であることを示し、TTAタスクにおける大きな潜在能力を示唆している。