Command Palette
Search for a command to run...
First Frame ist der Ort für die Anpassung von Videoinhalten
First Frame ist der Ort für die Anpassung von Videoinhalten
Jingxi Chen Zongxia Li Zhichao Liu Guangyao Shi Xiyang Wu Fuxiao Liu Cornelia Fermuller Brandon Y. Feng Yiannis Aloimonos
Zusammenfassung
Welche Rolle spielt das erste Bild in Videogenerationsmodellen? Traditionell wird es als räumlich-zeitlicher Ausgangspunkt eines Videos betrachtet, lediglich als Keim für die nachfolgende Animation. In dieser Arbeit offenbaren wir einen grundlegend anderen Ansatz: Videomodelle behandeln das erste Bild implizit als konzeptionellen Speicherpuffer, in dem visuelle Entitäten gespeichert werden, um sie später bei der Generierung wiederzuverwenden. Auf Basis dieses Einblicks zeigen wir, dass es möglich ist, robuste und generalisierbare Anpassungen von Videoinhalten in vielfältigen Szenarien zu erreichen – mit lediglich 20 bis 50 Trainingsbeispielen, ohne Architekturänderungen oder umfangreiche Fine-Tuning-Prozesse. Dies deckt eine leistungsstarke, bisher übersehene Fähigkeit von Videogenerationsmodellen für referenzbasierte Anpassung von Videos auf.