HyperAIHyperAI

Command Palette

Search for a command to run...

VideoPoet: Ein Großes Sprachmodell für zero-shot-Videoerstellung

Zusammenfassung

Wir stellen VideoPoet vor, ein Sprachmodell, das in der Lage ist, hochwertige Videos mit passendem Audio aus einer Vielzahl von Bedingungs-Signalen zu synthetisieren. VideoPoet nutzt eine nur aus einem Decoder bestehende Transformer-Architektur, die multimodale Eingaben – einschließlich Bilder, Videos, Text und Audio – verarbeitet. Das Trainingsprotokoll folgt dem von Großsprachmodellen (Large Language Models, LLMs) und besteht aus zwei Phasen: Vortrainierung und aufgabenbezogene Anpassung. Während der Vortrainierung integriert VideoPoet eine Mischung aus multimodalen generativen Zielfunktionen innerhalb eines autoregressiven Transformer-Rahmens. Das vortrainierte LLM dient als Grundlage, die für eine Vielzahl von Video-Generierungsaufgaben angepasst werden kann. Wir präsentieren empirische Ergebnisse, die die führende Leistungsfähigkeit des Modells bei zero-shot-Video-Generierung belegen, wobei insbesondere die Fähigkeit von VideoPoet hervorgehoben wird, hochfidele Bewegungen zu generieren. Projektseite: http://sites.research.google/videopoet/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp