Command Palette
Search for a command to run...
Jingxi Chen Zongxia Li Zhichao Liu Guangyao Shi Xiyang Wu Fuxiao Liu Cornelia Fermuller Brandon Y. Feng Yiannis Aloimonos

要約
動画生成モデルにおける最初のフレームの役割について、従来は動画の空間時間的な出発点として捉えられており、以降のアニメーション生成の「種」として機能するにとどまっていた。本研究では、これとは根本的に異なる視点を提示する。すなわち、動画モデルは最初のフレームを、生成過程の後半で再利用可能な視覚的エンティティを記憶する概念的メモリバッファとして間接的に扱っているという事実を明らかにした。この知見を活用することで、アーキテクチャの変更や大規模なファインチューニングを一切行わずに、わずか20~50個のトレーニング例を用いることで、多様なシナリオにおいて堅牢かつ汎化性の高い動画コンテンツのカスタマイズを実現可能であることを示した。これは、参照に基づく動画カスタマイズにおいて、従来無視されがちな動画生成モデルの強力な潜在能力を明らかにするものである。