2ヶ月前

MIDAS：リアルタイム自己回帰型動画生成を活用したマルチモーダルインタラクティブなデジタル人間合成

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

要約

近年、インタラクティブなデジタル人間動画生成は広範な注目を集め、顕著な進展を遂げている。しかし、多様な入力信号に対してリアルタイムで対話可能な実用的なシステムを構築することは、現行の手法にとって依然として大きな課題であり、高遅延、高計算コスト、制御性の限界といった問題に直面している。本研究では、ストリーミング形式でインタラクティブなマルチモーダル制御と低遅延の外挿を可能にする自己回帰型動画生成フレームワークを提案する。標準的な大規模言語モデル（LLM）への最小限の改変により、音声、ポーズ、テキストなどのマルチモーダルな条件符号化を入力として受け取り、空間的・意味的に整合性のある表現を出力することで、拡散ヘッドのノイズ除去プロセスをガイドする。これを支えるために、複数のソースから構築した約2万時間規模の対話データセットを構築し、豊富な会話シナリオを提供した。さらに、最大64倍の圧縮比を実現する深層圧縮オートエンコーダを導入し、自己回帰モデルにおける長期予測の負荷を効果的に軽減した。双方向会話、多言語人間合成、インタラクティブな世界モデルに関する広範な実験により、本手法が低遅延性、高効率性、細粒度なマルチモーダル制御性において優れた性能を発揮することが示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

MIDAS：リアルタイム自己回帰型動画生成を活用したマルチモーダルインタラクティブなデジタル人間合成

Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

要約

AI で AI を構築

Hyper Newsletters