HyperAIHyperAI

Command Palette

Search for a command to run...

All in One: Untersuchung der vereinheitlichten Video-Sprache-Vortrainierung

Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou

Zusammenfassung

Mainstream Video-Sprache-Vortrainierungsmodelle \cite{actbert,clipbert,violet} bestehen aus drei Komponenten: einem Video-Encoder, einem Text-Encoder und einem Video-Text-Fusions-Transformer. Sie streben eine verbesserte Leistung durch den Einsatz schwererer einmodaler Encoder oder multimodaler Fusions-Transformers an, was zu einer Zunahme der Parameter und einer geringeren Effizienz bei nachgeschalteten Aufgaben führt. In dieser Arbeit führen wir erstmals ein end-to-end-Video-Sprache-Modell ein, das wir \textit{All-in-One Transformer} nennen, welches rohe Video- und Textsignale mithilfe einer einheitlichen Backbone-Architektur in gemeinsame Darstellungen überführt. Wir argumentieren, dass die einzigartige zeitliche Struktur von Videodaten eine entscheidende Herausforderung darstellt, die die Entwicklung eines modality-agnostischen Transformers behindert. Um diese Schwierigkeit zu überwinden, stellen wir eine neuartige und effektive Token-Rolling-Operation vor, die zeitliche Darstellungen aus Videoclips parameternicht-abhängig kodiert. Durch die sorgfältige Gestaltung ermöglicht diese Methode die gemeinsame Darstellungslernung sowohl für multimodale als auch für einmodale Eingaben mit einem einheitlichen Backbone-Modell. Unser vortrainiertes All-in-One Transformer wird nach Feintuning auf verschiedene nachgeschaltete Video-Sprache-Aufgaben übertragen, darunter Text-zu-Video-Abfrage, Video-Fragenbeantwortung, Multiple-Choice-Aufgaben und visuelle Alltagswissensschlussfolgerung. Die Ergebnisse zeigen eine state-of-the-art-Leistung bei minimalen Modell-FLOPs auf neun Datensätzen und belegen die Überlegenheit unseres Ansatzes gegenüber konkurrierenden Methoden. Der Quellcode und das vortrainierte Modell sind unter https://github.com/showlab/all-in-one veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
All in One: Untersuchung der vereinheitlichten Video-Sprache-Vortrainierung | Paper | HyperAI