8ヶ月前

拡散モデル

テキストから動画

アプローチ／フレームワーク

マルチモーダル

Chen Wenshuo ; Jia Haozhe ; Lai Songning ; Wu Keming ; Xiao Hongru ; Hu Lijie ; Yue Yutao

概要

テキストから動作生成への急速な進歩は、主に拡散モデルによって推進されてきました。しかし、既存の手法は時間軸モデリングにのみ焦点を当てており、周波数領域解析を見落としています。私たちは、動作ノイズ除去において2つの重要なフェーズを特定しました：意味計画段階（semantic planning stage）と細部改善段階（fine-grained improving stage）。これらのフェーズを効果的に処理するために、私たちは周波数強化型テキストから動作への拡散モデル（Free-T2M）を提案します。このモデルでは、段階固有の一貫性損失が導入され、静的な特徴の堅牢性を向上させるとともに、細部の精度を改善します。広範な実験により、私たちの手法の有効性が示されています。特に、StableMoFusionにおいて、私たちの手法はFID（Fréchet Inception Distance）を0.189から0.051に削減し、拡散アーキテクチャ内の新たな最先端性能（SOTA）を確立しています。これらの結果は、より正確で堅牢なテキストから動作生成のために周波数領域の洞察を取り入れることが重要であることを強調しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

拡散モデル

テキストから動画

アプローチ／フレームワーク

マルチモーダル

Chen Wenshuo ; Jia Haozhe ; Lai Songning ; Wu Keming ; Xiao Hongru ; Hu Lijie ; Yue Yutao

概要

テキストから動作生成への急速な進歩は、主に拡散モデルによって推進されてきました。しかし、既存の手法は時間軸モデリングにのみ焦点を当てており、周波数領域解析を見落としています。私たちは、動作ノイズ除去において2つの重要なフェーズを特定しました：意味計画段階（semantic planning stage）と細部改善段階（fine-grained improving stage）。これらのフェーズを効果的に処理するために、私たちは周波数強化型テキストから動作への拡散モデル（Free-T2M）を提案します。このモデルでは、段階固有の一貫性損失が導入され、静的な特徴の堅牢性を向上させるとともに、細部の精度を改善します。広範な実験により、私たちの手法の有効性が示されています。特に、StableMoFusionにおいて、私たちの手法はFID（Fréchet Inception Distance）を0.189から0.051に削減し、拡散アーキテクチャ内の新たな最先端性能（SOTA）を確立しています。これらの結果は、より正確で堅牢なテキストから動作生成のために周波数領域の洞察を取り入れることが重要であることを強調しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Free-T2M: 周波数強化テキストツーモーション拡散モデルと一貫性損失 | 記事 | HyperAI超神経