HyperAIHyperAI
vor 9 Tagen

Tem-Adapter: Anpassung von Bild-Text-Vortrainierung für Video-Frage-Antwort

Guangyi Chen, Xiao Liu, Guangrun Wang, Kun Zhang, Philip H.S.Torr, Xiao-Ping Zhang, Yansong Tang
Tem-Adapter: Anpassung von Bild-Text-Vortrainierung für Video-Frage-Antwort
Abstract

Video-Sprache-Vorstufungsmodelle haben erheblichen Erfolg bei der Steuerung von Video-Fragen-Antwort-Aufgaben (VideoQA) gezeigt. Aufgrund der Länge von Videosequenzen verursachen jedoch die Trainingskosten großer, videobasierter Modelle deutlich höhere Aufwendungen als bei bildbasierten Modellen. Dies motiviert uns, den Wissensvorsprung aus bildbasierten Vorstufungen zu nutzen, trotz der offensichtlichen Unterschiede zwischen den Domänen Bild und Video. Um diese Lücken zu schließen, stellen wir in diesem Artikel Tem-Adapter vor, welches die Erfassung zeitlicher Dynamiken und komplexer Semantik durch einen visuellen Temporal Aligner und einen textuellen Semantic Aligner ermöglicht. Im Gegensatz zu herkömmlichen Methoden zur Anpassung vortrainierter Kenntnisse, die sich ausschließlich auf das Ziel der Downstream-Aufgabe konzentrieren, führt der Temporal Aligner eine zusätzliche, sprachgeleitete autoregressive Aufgabe ein, die darauf abzielt, zeitliche Abhängigkeiten zu fördern, indem zukünftige Zustände basierend auf historischen Hinweisen und sprachlicher Anleitung zur Beschreibung der Ereignisentwicklung vorhergesagt werden. Darüber hinaus verringert ein Semantic Aligner die semantische Lücke und passt die textuelle Repräsentation zur besseren Beschreibung von Ereignissen an, indem zunächst eine Vorlage entwickelt wird, um Frage-Antwort-Paare zu ereignisbezogenen Beschreibungen zu fusionieren, und anschließend ein Transformer-Decoder mit der gesamten Videosequenz als Leitfaden zur Feinabstimmung trainiert wird. Wir evaluieren Tem-Adapter und verschiedene Übertragungsstrategien für Vorstufung auf zwei VideoQA-Benchmark-Datenbanken. Die signifikante Leistungssteigerung bestätigt die Wirksamkeit unseres Ansatzes.

Tem-Adapter: Anpassung von Bild-Text-Vortrainierung für Video-Frage-Antwort | Neueste Forschungsarbeiten | HyperAI