Auffusion:拡散モデルと大規模言語モデルの力を活用したテキストからオーディオへの生成

拡散モデル(diffusion models)および大規模言語モデル(LLMs)の最近の進展により、AIGC(AI Generated Content)分野は著しい発展を遂げている。自然言語のプロンプトから音声を生成するText-to-Audio(TTA)は、AIGCの新たな応用分野として注目を集めつつある。しかし、従来のTTA研究では、特に複雑なテキスト入力に対する生成品質やテキストと音声の対応(text-audio alignment)の面で課題が残っている。最先端のText-to-Image(T2I)拡散モデルのアプローチに着想を得て、本研究ではT2IモデルのフレームワークをTTAタスクに適応する新しいTTAシステム「Auffusion」を提案する。この手法は、T2Iモデルが持つ本質的な生成能力と正確なクロスモーダル対応性を効果的に活用することで、高品質な音声生成を実現する。主観的・客観的評価の結果、Auffusionは限られたデータ量および計算リソースの下でも、従来のTTA手法を上回る性能を示した。さらに、T2I分野ではエンコーダーの選定がクロスモーダル対応(例えば、細部の再現やオブジェクトの対応)に顕著な影響を与えることが知られているが、これまでのTTA研究では同様の評価はほとんど行われていなかった。本研究では包括的なアブレーション研究および独自のクロスアテンションマップ可視化を用いて、TTAにおけるテキスト-音声対応の特性を深く分析した。その結果、Auffusionがテキスト記述に正確に一致する音声を生成する優れた能力を持つことが明らかになった。この能力は、音声スタイル転送、インペイント(inpainting)、その他の音声操作タスクにおいても裏付けられている。実装コードおよびデモは、https://auffusion.github.io にて公開されている。