HyperAIHyperAI

Command Palette

Search for a command to run...

VideoGPT+: Integration von Bild- und Videokodierern für verbessertes Videoverstehen

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

Zusammenfassung

Aufbauend auf den Fortschritten im Bereich der Sprachmodelle haben große multimodale Modelle (LMMs) erhebliche Verbesserungen bei der Videoverarbeitung geleistet. Obwohl die aktuellen Video-LMMs fortschrittliche große Sprachmodelle (LLMs) nutzen, stützen sie sich entweder auf Bild- oder Videokodierer zur Verarbeitung visueller Eingaben, wobei jeder dieser Ansätze seine eigenen Einschränkungen hat. Bildkodierer sind darin hervorragend, reichhaltige räumliche Details aus Folgen von Frames zu erfassen, aber sie vermissen expliziten zeitlichen Kontext, der in Videos mit komplexen Aktionssequenzen von Bedeutung sein kann. Videokodierer hingegen bieten zeitlichen Kontext, sind jedoch oft durch rechnerische Beschränkungen eingeschränkt, die dazu führen, dass nur spärlich verteilte Frames in niedriger Auflösung verarbeitet werden, was wiederum zu einer verringerten kontextuellen und räumlichen Verständnisfähigkeit führt. Aus diesem Grund stellen wir VideoGPT+ vor, das die ergänzenden Vorteile des Bildkodierers (für detailliertes räumliches Verständnis) und des Videokodierers (für globales zeitliches Kontextmodellierung) kombiniert. Das Modell verarbeitet Videos, indem es sie in kleinere Segmente unterteilt und eine adaptive Pooling-Strategie auf die durch beide Kodierer extrahierten Merkmale anwendet. Unsere Architektur zeigt verbesserte Leistungen bei mehreren Video-Benchmarks, einschließlich VCGBench, MVBench und Zero-Shot-Fragebeantwortung. Darüber hinaus entwickeln wir einen 112K großen Video-Anweisungsdatensatz mithilfe eines neuartigen halbautomatischen Annotationpipelines, der die Leistung des Modells weiter verbessert. Zudem präsentieren wir VCGBench-Diverse zur umfassenden Bewertung von Video-LMMs; dieser Benchmark umfasst 18 breite Videokategorien wie Lebensstil, Sport, Wissenschaft, Gaming und Überwachungsvideos. Mit 4.354 Frage-Antwort-Paaren bewertet dieser Benchmark die Generalisierungsfähigkeit bestehender LMMs bei dichtem Video-Captioning, räumlichem und zeitlichem Verständnis sowie komplexer Schlussfolgerungen, um eine umfassende Bewertung über verschiedene Videotypen und Dynamiken hinweg sicherzustellen.Code: https://github.com/mbzuai-oryx/VideoGPT-plus.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp