HyperAIHyperAI

Command Palette

Search for a command to run...

Kontrastives Video-Frage-Antwort über Video-Graph-Transformer

Junbin Xiao Pan Zhou Angela Yao Yicong Li Richang Hong Shuicheng Yan Tat-Seng Chua

Zusammenfassung

Wir schlagen vor, die Aufgabe des Videofragenbeantwortens (VideoQA) kontrastiv mittels eines Video-Graph-Transformers (CoVGT) durchzuführen. Die Besonderheit und Überlegenheit von CoVGT zeigt sich in drei Aspekten: 1) Es führt einen dynamischen Graph-Transformer-Modul ein, der Videos explizit durch die Erfassung visueller Objekte, ihrer Beziehungen und ihrer Dynamik kodiert, um komplexe räumlich-zeitliche Schlussfolgerungen zu ermöglichen. 2) Es entwirft separate Video- und Text-Transformers für den kontrastiven Lernprozess zwischen Video und Text, um die Fragebeantwortung zu realisieren, anstelle eines multimodalen Transformers zur Antwortklassifikation. Feinabgestimmte Video-Text-Kommunikation wird durch zusätzliche, intermodale Interaktionsmodule erreicht. 3) Es wird durch eine kombinierte, vollständig- und selbstüberwachte kontrastive Zielsetzung optimiert, die jeweils korrekte und inkorrekte Antworten sowie relevante und irrelevante Fragen berücksichtigt. Dank der überlegenen Video-Kodierung und der Fragebeantwortungslösung zeigt CoVGT eine deutlich bessere Leistung als bisherige Ansätze bei Video-Reasoning-Aufgaben. Selbst Modelle, die mit Millionen externer Daten vortrainiert wurden, werden von CoVGT übertroffen. Zudem zeigen wir, dass CoVGT auch von einer intermodalen Vortrainierung profitieren kann, jedoch mit um Größenordnungen geringerem Datenvolumen. Die Ergebnisse belegen die Wirksamkeit und Überlegenheit von CoVGT und offenbaren zusätzlich dessen Potenzial für dateneffizientere Vortrainingsstrategien. Wir hoffen, dass unser Erfolg die Entwicklung von VideoQA über die grobe Erkennung bzw. Beschreibung hinaus hin zu feinabgestimmten Relationsschlussfolgerungen von Videoinhalten vorantreibt. Unser Quellcode ist unter https://github.com/doc-doc/CoVGT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp