vor 11 Tagen

VideoPoet: Ein Großes Sprachmodell für zero-shot-Videoerstellung

Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Details der Forschungsarbeit anzeigen

VideoPoet: Ein Großes Sprachmodell für zero-shot-Videoerstellung

Abstract

Wir stellen VideoPoet vor, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Bedingungs-Signalen zu synthetisieren. VideoPoet nutzt eine nur aus einem Decoder bestehende Transformer-Architektur, die multimodale Eingaben – einschließlich Bilder, Videos, Text und Audio – verarbeitet. Das Trainingsprotokoll folgt dem von Großsprachmodellen (Large Language Models, LLMs) und besteht aus zwei Phasen: Vortrainierung und aufgabenbezogene Anpassung. Während der Vortrainierung integriert VideoPoet eine Mischung aus multimodalen generativen Zielfunktionen innerhalb eines autoregressiven Transformer-Rahmens. Das vortrainierte LLM dient als Grundlage, die für eine Vielzahl von Video-Generierungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die führende Leistungsfähigkeit des Modells bei zero-shot-Video-Generierung belegen, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochfidele Bewegungen zu generieren. Projektseite: http://sites.research.google/videopoet/