HyperAIHyperAI

Command Palette

Search for a command to run...

Videofragenbeantwortung mit iterativer Video-Text-Co-Tokenisierung

AJ Piergiovanni Kairo Morton Weicheng Kuo Michael S. Ryoo Anelia Angelova

Zusammenfassung

Video-Fragebeantwortung ist eine anspruchsvolle Aufgabe, die ein gemeinsames Verständnis der Spracheingabe, der visuellen Informationen in einzelnen Videobildern sowie der zeitlichen Informationen über die im Video ablaufenden Ereignisse erfordert. In diesem Paper stellen wir einen neuartigen mehrströmigen Video-Encoder für die Video-Fragebeantwortung vor, der mehrere Videoeingaben und einen neuen iterativen Video-Text-Co-Tokenisierungsansatz nutzt, um eine Vielzahl von Fragen im Zusammenhang mit Videos zu beantworten. Wir evaluieren das Modell experimentell auf mehreren Datensätzen wie MSRVTT-QA, MSVD-QA und IVQA und erreichen dabei deutlich bessere Ergebnisse als die vorherige State-of-the-Art. Gleichzeitig reduziert unser Modell die benötigten GFLOPs von 150–360 auf lediglich 67 und stellt damit ein äußerst effizientes Modell für die Video-Fragebeantwortung dar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp