HyperAIHyperAI
vor 9 Tagen

Kontrastives Video-Frage-Antwort über Video-Graph-Transformer

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua
Kontrastives Video-Frage-Antwort über Video-Graph-Transformer
Abstract

Wir schlagen vor, die Aufgabe des Videofragenbeantwortens (VideoQA) kontrastiv mittels eines Video-Graph-Transformers (CoVGT) durchzuführen. Die Besonderheit und Überlegenheit von CoVGT zeigt sich in drei Aspekten: 1) Es führt einen dynamischen Graph-Transformer-Modul ein, der Videos explizit durch die Erfassung visueller Objekte, ihrer Beziehungen und ihrer Dynamik kodiert, um komplexe räumlich-zeitliche Schlussfolgerungen zu ermöglichen. 2) Es entwirft separate Video- und Text-Transformers für den kontrastiven Lernprozess zwischen Video und Text, um die Fragebeantwortung zu realisieren, anstelle eines multimodalen Transformers zur Antwortklassifikation. Feinabgestimmte Video-Text-Kommunikation wird durch zusätzliche, intermodale Interaktionsmodule erreicht. 3) Es wird durch eine kombinierte, vollständig- und selbstüberwachte kontrastive Zielsetzung optimiert, die jeweils korrekte und inkorrekte Antworten sowie relevante und irrelevante Fragen berücksichtigt. Dank der überlegenen Video-Kodierung und der Fragebeantwortungslösung zeigt CoVGT eine deutlich bessere Leistung als bisherige Ansätze bei Video-Reasoning-Aufgaben. Selbst Modelle, die mit Millionen externer Daten vortrainiert wurden, werden von CoVGT übertroffen. Zudem zeigen wir, dass CoVGT auch von einer intermodalen Vortrainierung profitieren kann, jedoch mit um Größenordnungen geringerem Datenvolumen. Die Ergebnisse belegen die Wirksamkeit und Überlegenheit von CoVGT und offenbaren zusätzlich dessen Potenzial für dateneffizientere Vortrainingsstrategien. Wir hoffen, dass unser Erfolg die Entwicklung von VideoQA über die grobe Erkennung bzw. Beschreibung hinaus hin zu feinabgestimmten Relationsschlussfolgerungen von Videoinhalten vorantreibt. Unser Quellcode ist unter https://github.com/doc-doc/CoVGT verfügbar.

Kontrastives Video-Frage-Antwort über Video-Graph-Transformer | Neueste Forschungsarbeiten | HyperAI