Command Palette
Search for a command to run...
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

要約
近年、インタラクティブなデジタル人間動画生成は広範な注目を集め、顕著な進展を遂げている。しかし、多様な入力信号に対してリアルタイムで対話可能な実用的なシステムを構築することは、現行の手法にとって依然として大きな課題であり、高遅延、高計算コスト、制御性の限界といった問題に直面している。本研究では、ストリーミング形式でインタラクティブなマルチモーダル制御と低遅延の外挿を可能にする自己回帰型動画生成フレームワークを提案する。標準的な大規模言語モデル(LLM)への最小限の改変により、音声、ポーズ、テキストなどのマルチモーダルな条件符号化を入力として受け取り、空間的・意味的に整合性のある表現を出力することで、拡散ヘッドのノイズ除去プロセスをガイドする。これを支えるために、複数のソースから構築した約2万時間規模の対話データセットを構築し、豊富な会話シナリオを提供した。さらに、最大64倍の圧縮比を実現する深層圧縮オートエンコーダを導入し、自己回帰モデルにおける長期予測の負荷を効果的に軽減した。双方向会話、多言語人間合成、インタラクティブな世界モデルに関する広範な実験により、本手法が低遅延性、高効率性、細粒度なマルチモーダル制御性において優れた性能を発揮することが示された。