HyperAIHyperAI
vor 9 Tagen

Video Graph Transformer für Video-Fragebeantwortung

Junbin Xiao, Pan Zhou, Tat-Seng Chua, Shuicheng Yan
Video Graph Transformer für Video-Fragebeantwortung
Abstract

Diese Arbeit stellt ein Video Graph Transformer (VGT)-Modell für die Videofragebeantwortung (VideoQA) vor. Die Besonderheit von VGT liegt in zweifacher Hinsicht: Erstens entwirft es ein dynamisches Graph-Transformer-Modul, das Videos explizit durch die Erfassung von visuellen Objekten, deren Beziehungen und Dynamiken für komplexe räumlich-zeitliche Schlussfolgerungen kodiert; zweitens nutzt es entkoppelte Video- und Text-Transformer zur Relevanzanalyse zwischen Video und Text, um die Fragebeantwortung durchzuführen, anstatt entkoppelte, multimodale Transformer für die Antwortklassifikation. Der Austausch zwischen Vision und Text erfolgt über zusätzliche, multimodale Interaktionsmodule. Durch eine plausiblere Video-Kodierung und eine verbesserte QA-Strategie zeigen wir, dass VGT im pretrainingsfreien Szenario deutlich bessere Leistungen erzielt als vorherige Ansätze bei Aufgaben, die dynamische Beziehungsschlussfolgerungen erfordern. Selbst Modelle, die mit Millionen externer Daten vortrainiert wurden, werden von VGT übertroffen. Wir zeigen weiterhin, dass VGT erhebliche Vorteile aus selbstüberwachtem, multimodalem Pretraining ziehen kann – und zwar mit Datenmengen, die um Größenordnungen geringer sind. Diese Ergebnisse verdeutlichen eindeutig die Wirksamkeit und Überlegenheit von VGT und offenbaren dessen Potenzial für dateneffizientere Pretraining-Strategien. Durch umfassende Analysen und einige heuristische Beobachtungen hoffen wir, dass VGT die Forschung im Bereich Video-Question-Answering über die grobe Erkennung oder Beschreibung hinaus auf feinere, relationale Schlussfolgerungen in realistischen Videos voranbringen wird. Unser Quellcode ist unter https://github.com/sail-sg/VGT verfügbar.