Ye Fang Tong Wu Valentin Deschaintre Duygu Ceylan Iliyan Georgiev Chun-Hao Paul Huang Yiwei Hu Xuelin Chen Tuanfeng Yang Wang

要約
大規模な動画生成モデルは、現実世界のシーンにおける写実的な外観や照明の相互作用をモデリングする上で顕著な可能性を示している。しかし、シーンの固有特性(例:アルベド、法線、材質、照度など)を統合的に理解し、それらを活用して動画を合成し、編集可能な固有表現をサポートするクローズドループフレームワークは、これまで未開拓であった。本研究では、固有特性に配慮した動画編集を実現する初めてのエンドツーエンドフレームワークであるV-RGBXを提案する。V-RGBXは以下の3つの主要な機能を統合している:(1)動画の逆レンダリングによる固有チャネルへの分解、(2)これらの固有表現から写実的な動画を合成する能力、(3)固有チャネルを条件としたキーフレームベースの動画編集。V-RGBXの中心となるのは、ユーザーが選択したキーフレームを通じて直感的かつ物理的に根拠のある動画編集を可能にするインタリーブド条件付け機構であり、任意の固有モダリティに対して柔軟な操作を実現する。広範な定性的および定量的評価により、V-RGBXが時間的に一貫性を持ち、写実的な動画を生成するとともに、キーフレームの編集を物理的に妥当な形でシーケンス全体に伝播できることを示した。また、物体の外観編集やシーンレベルの再照明といった多様な応用において、従来手法を上回る有効性を実証した。