HyperAIHyperAI
vor 7 Tagen

Videofragenbeantwortung mit iterativer Video-Text-Co-Tokenisierung

AJ Piergiovanni, Kairo Morton, Weicheng Kuo, Michael S. Ryoo, Anelia Angelova
Videofragenbeantwortung mit iterativer Video-Text-Co-Tokenisierung
Abstract

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein gemeinsames Verständnis der Spracheingabe, der visuellen Informationen in einzelnen Videobildern sowie der zeitlichen Informationen über die im Video ablaufenden Ereignisse erfordert. In diesem Paper stellen wir einen neuartigen mehrströmigen Video-Encoder für die Video-Fragebeantwortung vor, der mehrere Videoeingaben und einen neuen iterativen Video-Text-Co-Tokenisierungsansatz nutzt, um eine Vielzahl von Fragen im Zusammenhang mit Videos zu beantworten. Wir evaluieren das Modell experimentell auf mehreren Datensätzen wie MSRVTT-QA, MSVD-QA und IVQA und erreichen dabei deutlich bessere Ergebnisse als die vorherige State-of-the-Art. Gleichzeitig reduziert unser Modell die benötigten GFLOPs von 150–360 auf lediglich 67 und stellt damit ein äußerst effizientes Modell für die Video-Fragebeantwortung dar.

Videofragenbeantwortung mit iterativer Video-Text-Co-Tokenisierung | Neueste Forschungsarbeiten | HyperAI