HyperAIHyperAI

Command Palette

Search for a command to run...

Weiterentwicklung der hochaufgelösten Video-Sprache-Repräsentation mit großskaligen Video-Transkriptionen

Hongwei Xue Tiankai Hang Yanhong Zeng Yuchong Sun Bei Liu Huan Yang Jianlong Fu Baining Guo

Zusammenfassung

Wir untersuchen gemeinsame Vortrainierung von Video- und Sprachdaten (VL), um die Kreuzmodalkenntnis zu fördern und zahlreiche nachgelagerte VL-Aufgaben zu unterstützen. Bestehende Ansätze extrahieren entweder geringwertige Video-Features oder erlernen nur eingeschränkte Text-Embeddings, wobei sie übersehen, dass hochauflösende Videos und vielfältige Semantik die Kreuzmodalkenntnis erheblich verbessern können. In diesem Artikel stellen wir ein neuartiges Hochauflösendes und Diversifiziertes Video-Sprache-Vortrainierungsmodell (HD-VILA) für eine Vielzahl visueller Aufgaben vor. Insbesondere sammeln wir einen großen Datensatz mit zwei charakteristischen Eigenschaften: 1) dem ersten hochauflösenden Datensatz mit 371,5 Tausend Stunden Videos in 720p-Auflösung und 2) dem diversifiziertesten Datensatz, der 15 beliebte YouTube-Kategorien abdeckt. Um eine VL-Vortrainierung zu ermöglichen, optimieren wir das HD-VILA-Modell gemeinsam durch einen hybriden Transformer, der reichhaltige räumlich-zeitliche Merkmale lernt, und einen multimodalen Transformer, der die Interaktionen der gelernten Video-Features mit diversifizierten Texten erzwingt. Unser Vortrainierungsmodell erreicht neue SOTA-Ergebnisse in 10 VL-Verständnisaufgaben sowie in zwei neuen textgesteuerten visuellen Generierungsaufgaben. Beispielsweise übertrifft unser Ansatz SOTA-Modelle um 40,4 % (relativ) bei R@1 im zero-shot MSR-VTT-Text-zu-Video-Abfrage-Task und um 55,4 % im hochauflösenden Datensatz LSMDC. Die gelernten VL-Embeddings sind zudem effektiv bei der Generierung visuell ansprechender und semantisch relevanter Ergebnisse in textgesteuerten visuellen Bearbeitungs- und Super-Resolution-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp