12日前
ConsistencyTTA:一貫性蒸留を用いた拡散型テキストから音声生成の高速化
Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi

要約
拡散モデル(Diffusion models)は、テキストから音声への生成(Text-to-Audio, TTA)において重要な役割を果たしている。しかし、生成ごとに潜在的なノイズ除去ネットワークに対して過剰に多くの照会を行うため、推論が極めて遅くなるという問題がある。このボトルネックを解決するため、本研究では「ConsistencyTTA」というフレームワークを提案する。この手法は、非自己回帰型(non-autoregressive)ネットワークの照会をたった1回に限定することで、TTAの推論速度を数百倍に高速化する。その実現のため、我々は「CFG対応潜在一貫性モデル(CFG-aware latent consistency model)」を提案し、一貫性生成を潜在空間に適応させるとともに、分類器フリー・ガイドライン(Classifier-Free Guidance, CFG)をモデルの学習に組み込む。さらに、拡散モデルとは異なり、ConsistencyTTAは音声空間におけるテキスト感知型評価指標(例:CLAPスコア)を用いたクローズドループでの微調整が可能であり、生成品質をさらに向上させることができる。AudioCapsデータセットにおける主観的・客観的評価の結果、拡散モデルに基づく手法と比較して、ConsistencyTTAは推論計算量を400倍削減しつつ、生成品質と多様性を維持することを実証した。