HyperAIHyperAI
vor 7 Tagen

All in One: Untersuchung der vereinheitlichten Video-Sprache-Vortrainierung

Alex Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
All in One: Untersuchung der vereinheitlichten Video-Sprache-Vortrainierung
Abstract

Mainstream Video-Sprache-Vortrainierungsmodelle \cite{actbert,clipbert,violet} bestehen aus drei Komponenten: einem Video-Encoder, einem Text-Encoder und einem Video-Text-Fusions-Transformer. Sie streben eine verbesserte Leistung durch den Einsatz schwererer einmodaler Encoder oder multimodaler Fusions-Transformers an, was zu einer Zunahme der Parameter und einer geringeren Effizienz bei nachgeschalteten Aufgaben führt. In dieser Arbeit führen wir erstmals ein end-to-end-Video-Sprache-Modell ein, das wir \textit{All-in-One Transformer} nennen, welches rohe Video- und Textsignale mithilfe einer einheitlichen Backbone-Architektur in gemeinsame Darstellungen überführt. Wir argumentieren, dass die einzigartige zeitliche Struktur von Videodaten eine entscheidende Herausforderung darstellt, die die Entwicklung eines modality-agnostischen Transformers behindert. Um diese Schwierigkeit zu überwinden, stellen wir eine neuartige und effektive Token-Rolling-Operation vor, die zeitliche Darstellungen aus Videoclips parameternicht-abhängig kodiert. Durch die sorgfältige Gestaltung ermöglicht diese Methode die gemeinsame Darstellungslernung sowohl für multimodale als auch für einmodale Eingaben mit einem einheitlichen Backbone-Modell. Unser vortrainiertes All-in-One Transformer wird nach Feintuning auf verschiedene nachgeschaltete Video-Sprache-Aufgaben übertragen, darunter Text-zu-Video-Abfrage, Video-Fragenbeantwortung, Multiple-Choice-Aufgaben und visuelle Alltagswissensschlussfolgerung. Die Ergebnisse zeigen eine state-of-the-art-Leistung bei minimalen Modell-FLOPs auf neun Datensätzen und belegen die Überlegenheit unseres Ansatzes gegenüber konkurrierenden Methoden. Der Quellcode und das vortrainierte Modell sind unter https://github.com/showlab/all-in-one veröffentlicht.

All in One: Untersuchung der vereinheitlichten Video-Sprache-Vortrainierung | Neueste Forschungsarbeiten | HyperAI