VideoPoet: Ein Großes Sprachmodell für zero-shot-Videoerstellung

Wir stellen VideoPoet vor, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Bedingungs-Signalen zu synthetisieren. VideoPoet nutzt eine nur aus einem Decoder bestehende Transformer-Architektur, die multimodale Eingaben – einschließlich Bilder, Videos, Text und Audio – verarbeitet. Das Trainingsprotokoll folgt dem von Großsprachmodellen (Large Language Models, LLMs) und besteht aus zwei Phasen: Vortrainierung und aufgabenbezogene Anpassung. Während der Vortrainierung integriert VideoPoet eine Mischung aus multimodalen generativen Zielfunktionen innerhalb eines autoregressiven Transformer-Rahmens. Das vortrainierte LLM dient als Grundlage, die für eine Vielzahl von Video-Generierungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die führende Leistungsfähigkeit des Modells bei zero-shot-Video-Generierung belegen, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochfidele Bewegungen zu generieren. Projektseite: http://sites.research.google/videopoet/