Command Palette
Search for a command to run...
OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

Abstract
Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben ein erhebliches Potenzial für die Videoverstehensfähigkeit gezeigt. Allerdings versagen bestehende Benchmarks darin, synergistische Schlussfolgerungsfähigkeiten zwischen Audio- und visuellen Modalitäten umfassend zu bewerten, wobei oft eine der beiden Modalitäten vernachlässigt oder logisch inkonsistent integriert wird. Um diese Lücke zu schließen, stellen wir OmniVideoBench vor – ein großskaliges und sorgfältig gestaltetes Benchmark-Set, das der Bewertung synergistischer audio-visueller Verstehensfähigkeit gewidmet ist und besonderen Wert auf Modaltätskomplementarität und logische Konsistenz legt. Konkret umfasst OmniVideoBench 1000 hochwertige Frage-Antwort-Paare (QA), die jeweils mit schrittweisen Schlussfolgerungsspuren annotiert sind und aus 628 vielfältigen Videos mit Längen von mehreren Sekunden bis zu 30 Minuten stammen. Alle Paare wurden manuell verifiziert, um vollständige Korrektheit und Einzigartigkeit sicherzustellen. Zudem umfasst OmniVideoBench 13 sorgfältig entworfene Fragetypen, die zeitliche Schlussfolgerung, räumliche Lokalisierung, Zählung, kausale Inferenz, Zusammenfassung und weitere Aspekte abdecken, wodurch die zentralen Herausforderungen des Videoverstehens umfassend erfasst werden. Die Bewertung mehrerer MLLMs auf OmniVideoBench offenbart eine deutliche Leistungslücke zwischen Modellleistung und menschlicher Schlussfolgerung, wobei Open-Source-Modelle signifikant hinter ihren Closed-Source-Konkurrenten zurückbleiben, was die inhärente Schwierigkeit echter audio-visueller Schlussfolgerung unterstreicht. Wir werden OmniVideoBench veröffentlichen, um die Entwicklung von MLLMs mit stärkeren und allgemeiner anwendbaren Schlussfolgerungsfähigkeiten voranzutreiben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.