12日前
AudioLDM:潜在拡散モデルを用いたテキストからオーディオ生成
Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley

要約
テキストから音声(Text-to-audio, TTA)を合成するシステムは、テキスト記述に基づいて一般的な音声を生成できる点から、近年注目を集めている。しかし、従来のTTA研究では、生成品質の限界と高い計算コストという課題が指摘されていた。本研究では、対照的言語-音声事前学習(Contrastive Language-Audio Pretraining, CLAP)の潜在空間から連続的な音声表現を学習する枠組みに基づくTTAシステム、AudioLDMを提案する。事前学習されたCLAPモデルを活用することで、音声埋め込みを用いたLDM(Latent Diffusion Model)の学習が可能となり、サンプリング時にテキスト埋め込みを条件として提供できる。AudioLDMは、マルチモーダル間の関係を直接モデリングせずに、音声信号およびその構成要素の潜在表現を学習するため、生成品質と計算効率の両面で優れた性能を発揮する。単一のGPUを用いてAudioCapsデータセットで学習した結果、客観的および主観的評価指標(例:Frechet音声距離)において、現在の最先端のTTA性能を達成した。さらに、AudioLDMはゼロショットの状態で、スタイル転送を含む多様なテキスト誘導型音声操作を実現する初めてのTTAシステムである。本研究の実装コードおよびデモは、https://audioldm.github.io にて公開されている。