2ヶ月前
Free-T2M: 周波数強化テキストツーモーション拡散モデルと一貫性損失
Chen, Wenshuo ; Jia, Haozhe ; Lai, Songning ; Wu, Keming ; Xiao, Hongru ; Hu, Lijie ; Yue, Yutao

要約
テキストから動作生成への急速な進歩は、主に拡散モデルによって推進されてきました。しかし、既存の手法は時間軸モデリングにのみ焦点を当てており、周波数領域解析を見落としています。私たちは、動作ノイズ除去において2つの重要なフェーズを特定しました:意味計画段階(semantic planning stage)と細部改善段階(fine-grained improving stage)。これらのフェーズを効果的に処理するために、私たちは周波数強化型テキストから動作への拡散モデル(Free-T2M)を提案します。このモデルでは、段階固有の一貫性損失が導入され、静的な特徴の堅牢性を向上させるとともに、細部の精度を改善します。広範な実験により、私たちの手法の有効性が示されています。特に、StableMoFusionにおいて、私たちの手法はFID(Fréchet Inception Distance)を0.189から0.051に削減し、拡散アーキテクチャ内の新たな最先端性能(SOTA)を確立しています。これらの結果は、より正確で堅牢なテキストから動作生成のために周波数領域の洞察を取り入れることが重要であることを強調しています。