HyperAIHyperAI

Command Palette

Search for a command to run...

HERO: Hierarchischer Encoder für die Video+Sprache-omnirepräsentative Vorbildung

Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu

Zusammenfassung

Wir stellen HERO vor, einen neuartigen Rahmen für die großskalige Video+Sprache-omni-Repräsentationslernung. HERO kodiert multimodale Eingaben in einer hierarchischen Struktur, wobei die lokale Kontextinformation eines Videobildes durch einen Cross-Modality-Transformer mittels multimodaler Fusion erfasst wird, während die globale Videokontextinformation durch einen Temporal-Transformer erfasst wird. Neben den klassischen Aufgaben Masked Language Modeling (MLM) und Masked Frame Modeling (MFM) entwickeln wir zwei neue Vortrainingsaufgaben: (i) Video-Untertitel-Zuordnung (VSM), bei der das Modell sowohl die globale als auch die lokale zeitliche Ausrichtung vorhersagt; und (ii) Bildreihenfolgenmodellierung (FOM), bei der das Modell die korrekte Reihenfolge von permutierten Videobildern vorhersagt. HERO wird gemeinsam auf HowTo100M und großen Fernsehdatensätzen trainiert, um ein tiefes Verständnis komplexer sozialer Dynamiken mit interagierenden mehreren Charakteren zu erlangen. Umfassende Experimente zeigen, dass HERO auf mehreren Benchmarks neue SOTA-Ergebnisse erzielt, sowohl bei textbasierten Video- und Video-Moment-Abfragen, Video-Fragen-Antwort (QA), Video-und-Sprache-Inferenz als auch bei Video-Kommentierungsaufgaben über verschiedene Domänen hinweg. Zudem führen wir zwei neue anspruchsvolle Benchmarks, How2QA und How2R, für Video-QA und -Abfrage ein, die aus vielfältigen Videoinhalten über mehrere Modalitäten zusammengestellt wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp