HyperAIHyperAI

Command Palette

Search for a command to run...

vor 21 Tagen

OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

Abstract

Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben ein erhebliches Potenzial für die Videoverstehensfähigkeit gezeigt. Allerdings versagen bestehende Benchmarks darin, synergistische Schlussfolgerungsfähigkeiten zwischen Audio- und visuellen Modalitäten umfassend zu bewerten, wobei oft eine der beiden Modalitäten vernachlässigt oder logisch inkonsistent integriert wird. Um diese Lücke zu schließen, stellen wir OmniVideoBench vor – ein großskaliges und sorgfältig gestaltetes Benchmark-Set, das der Bewertung synergistischer audio-visueller Verstehensfähigkeit gewidmet ist und besonderen Wert auf Modaltätskomplementarität und logische Konsistenz legt. Konkret umfasst OmniVideoBench 1000 hochwertige Frage-Antwort-Paare (QA), die jeweils mit schrittweisen Schlussfolgerungsspuren annotiert sind und aus 628 vielfältigen Videos mit Längen von mehreren Sekunden bis zu 30 Minuten stammen. Alle Paare wurden manuell verifiziert, um vollständige Korrektheit und Einzigartigkeit sicherzustellen. Zudem umfasst OmniVideoBench 13 sorgfältig entworfene Fragetypen, die zeitliche Schlussfolgerung, räumliche Lokalisierung, Zählung, kausale Inferenz, Zusammenfassung und weitere Aspekte abdecken, wodurch die zentralen Herausforderungen des Videoverstehens umfassend erfasst werden. Die Bewertung mehrerer MLLMs auf OmniVideoBench offenbart eine deutliche Leistungslücke zwischen Modellleistung und menschlicher Schlussfolgerung, wobei Open-Source-Modelle signifikant hinter ihren Closed-Source-Konkurrenten zurückbleiben, was die inhärente Schwierigkeit echter audio-visueller Schlussfolgerung unterstreicht. Wir werden OmniVideoBench veröffentlichen, um die Entwicklung von MLLMs mit stärkeren und allgemeiner anwendbaren Schlussfolgerungsfähigkeiten voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs | Forschungsarbeiten | HyperAI