vor 7 Tagen

HERO: Hierarchischer Encoder für die Video+Sprache-omnirepräsentative Vorbildung

Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, Jingjing Liu

Abstract

Wir stellen HERO vor, einen neuartigen Rahmen für die großskalige Video+Sprache-omni-Repräsentationslernung. HERO kodiert multimodale Eingaben in einer hierarchischen Struktur, wobei die lokale Kontextinformation eines Videobildes durch einen Cross-Modality-Transformer mittels multimodaler Fusion erfasst wird, während die globale Videokontextinformation durch einen Temporal-Transformer erfasst wird. Neben den klassischen Aufgaben Masked Language Modeling (MLM) und Masked Frame Modeling (MFM) entwickeln wir zwei neue Vortrainingsaufgaben: (i) Video-Untertitel-Zuordnung (VSM), bei der das Modell sowohl die globale als auch die lokale zeitliche Ausrichtung vorhersagt; und (ii) Bildreihenfolgenmodellierung (FOM), bei der das Modell die korrekte Reihenfolge von permutierten Videobildern vorhersagt. HERO wird gemeinsam auf HowTo100M und großen Fernsehdatensätzen trainiert, um ein tiefes Verständnis komplexer sozialer Dynamiken mit interagierenden mehreren Charakteren zu erlangen. Umfassende Experimente zeigen, dass HERO auf mehreren Benchmarks neue SOTA-Ergebnisse erzielt, sowohl bei textbasierten Video- und Video-Moment-Abfragen, Video-Fragen-Antwort (QA), Video-und-Sprache-Inferenz als auch bei Video-Kommentierungsaufgaben über verschiedene Domänen hinweg. Zudem führen wir zwei neue anspruchsvolle Benchmarks, How2QA und How2R, für Video-QA und -Abfrage ein, die aus vielfältigen Videoinhalten über mehrere Modalitäten zusammengestellt wurden.