HyperAIHyperAI

Command Palette

Search for a command to run...

HuMo:協調的マルチモーダル条件付きによる人間中心型動画生成

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

概要

人間中心型動画生成(HCVG)手法は、テキスト、画像、音声などのマルチモーダル入力から人間の動画を合成することを目的としています。従来の手法は、以下の2つの課題により、異種のモダリティを効果的に統合することができません:(1)ペアリングされたテキスト・参照画像・音声の三つ組み条件を持つトレーニングデータの不足、および(2)主体の保持(subject preservation)と音声・視覚の同期(audio-visual sync)というサブタスクを、マルチモーダル入力のもとで協調的に実現する困難さです。本研究では、協調的なマルチモーダル制御を実現する統合型HCVGフレームワーク「HuMo」を提案します。第一の課題に対しては、多様性に富み、高品質なペアリングされたテキスト・参照画像・音声データセットを構築しました。第二の課題に対しては、タスク固有の戦略を導入した二段階の段階的マルチモーダル学習パラダイムを提案しました。主体の保持タスクでは、基礎モデルのプロンプト追従性および視覚生成能力を維持するために、最小限の干渉で画像を注入する「最小侵襲的画像注入戦略」を採用しました。音声・視覚同期タスクでは、一般的に用いられる音声クロスアテンション層に加え、音声と顔領域との関連付けを間接的に導く「予測に基づく注目(focus-by-predicting)戦略」を提案しました。マルチモーダル入力における制御性の統合学習においては、既に習得した能力を基盤とし、段階的に音声・視覚同期タスクを組み込みます。推論フェーズでは、柔軟かつ細粒度なマルチモーダル制御を実現するため、時間に応じて適応する「分類器フリー・ガイド付き(Classifier-Free Guidance)戦略」を設計し、ノイズ除去ステップごとにガイドウェイトを動的に調整します。広範な実験結果により、HuMoが各サブタスクにおいて専門的な最先端手法を上回ることを実証し、協調的なマルチモーダル条件付きHCVGを実現する統合フレームワークとしての有効性を確立しました。プロジェクトページ:https://phantom-video.github.io/HuMo


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
HuMo:協調的マルチモーダル条件付きによる人間中心型動画生成 | 記事 | HyperAI超神経