vor 6 Monaten

Zusammenfassung

Die Generierung von Videos aus Text ist aufgrund der hohen Rechenanforderungen für das Training und der unendlich vielen möglichen Evaluierungsergebnisse eine herausfordernde Aufgabe. Bisherige Arbeiten experimentieren typischerweise auf einfachen oder kleinen Datensätzen, wodurch die Generalisierungsfähigkeit erheblich eingeschränkt ist. In dieser Arbeit präsentieren wir GODIVA, ein offene-Domäne-Text-zu-Video-Prätrainingsmodell, das Videos auf auto-regressive Weise mithilfe einer dreidimensionalen sparsen Aufmerksamkeitsmechanik aus Text generiert. Wir prätrainieren unser Modell auf Howto100M, einem großskaligen Text-Video-Datensatz mit über 136 Millionen Text-Video-Paaren. Experimente zeigen, dass GODIVA nicht nur auf nachgeschaltete Video-Generierungsaufgaben feinabgestimmt werden kann, sondern auch eine gute Zero-Shot-Fähigkeit bei unbekannten Texten aufweist. Zudem schlagen wir eine neue Metrik namens Relative Matching (RM) vor, um die Qualität der Video-Generierung automatisch zu bewerten. Mehrere Herausforderungen werden als zukünftige Arbeiten aufgelistet und diskutiert.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

GODIVA: Generierung offener Domänen-Videos aus natürlichen Beschreibungen | Paper | HyperAI

Command Palette

GODIVA: Generierung offener Domänen-Videos aus natürlichen Beschreibungen

Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GODIVA: Generierung offener Domänen-Videos aus natürlichen Beschreibungen

Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GODIVA: Generierung offener Domänen-Videos aus natürlichen Beschreibungen

Chenfei Wu Lun Huang Qianxi Zhang Binyang Li Lei Ji Fan Yang Guillermo Sapiro Nan Duan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters