First Frame ist der Ort für die Anpassung von Videoinhalten
Jingxi Chen Zongxia Li Zhichao Liu Guangyao Shi Xiyang Wu Fuxiao Liu Cornelia Fermuller Brandon Y. Feng Yiannis Aloimonos

Abstract
Welche Rolle spielt das erste Bild in Videogenerationsmodellen? Traditionell wird es als räumlich-zeitlicher Ausgangspunkt eines Videos betrachtet, lediglich als Keim für die nachfolgende Animation. In dieser Arbeit offenbaren wir einen grundlegend anderen Ansatz: Videomodelle behandeln das erste Bild implizit als konzeptionellen Speicherpuffer, in dem visuelle Entitäten gespeichert werden, um sie später bei der Generierung wiederzuverwenden. Auf Basis dieses Einblicks zeigen wir, dass es möglich ist, robuste und generalisierbare Anpassungen von Videoinhalten in vielfältigen Szenarien zu erreichen – mit lediglich 20 bis 50 Trainingsbeispielen, ohne Architekturänderungen oder umfangreiche Fine-Tuning-Prozesse. Dies deckt eine leistungsstarke, bisher übersehene Fähigkeit von Videogenerationsmodellen für referenzbasierte Anpassung von Videos auf.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.