1日前

エゴツイン：第一人称視点における身体と視界の夢

Jingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

要約

外中心視覚映像の合成は著しい進展を遂げているが、自己中心視点（エゴセントリック）の映像生成は依然としてほとんど探索が進んでいない。これは、被写体の身体運動によって引き起こされるカメラの動きパターンと併せて、第一人称視点のコンテンツをモデリングする必要がある。このギャップを埋めるために、本研究では、人間の動きとエゴセントリック映像を同時に生成する新しいタスクを提案する。このタスクは以下の2つの重要な課題を特徴づける：1）視点の整合性：生成された映像におけるカメラ軌道は、人間の動きから導出される頭部の軌道と正確に一致しなければならない。2）因果的相互作用：合成された人間の動きは、隣接する映像フレーム間の観測された視覚的ダイナミクスと因果的に整合している必要がある。これらの課題に対処するため、本研究では、拡散トランスフォーマー（diffusion transformer）アーキテクチャに基づく、映像と運動を統合的に生成するフレームワーク「EgoTwin」を提案する。具体的には、EgoTwinは、人間の動きを頭部関節に固定する「頭部中心の動き表現」を導入し、サイバネティクスを想起させる相互作用メカニズムを採用することで、アテンション演算内において映像と動きの因果的相互作用を明示的に捉える。包括的な評価のため、テキスト・映像・動きの同期された大規模な実世界データセットを構築し、映像と動きの整合性を評価するための新しい指標を設計した。広範な実験により、EgoTwinフレームワークの有効性が実証された。