vor 4 Monaten

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang

Zusammenfassung

Neuere Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben ein erhebliches Potenzial für die Videoverstehensfähigkeit gezeigt. Allerdings versagen bestehende Benchmarks darin, synergistische Schlussfolgerungsfähigkeiten zwischen Audio- und visuellen Modalitäten umfassend zu bewerten, wobei oft eine der beiden Modalitäten vernachlässigt oder logisch inkonsistent integriert wird. Um diese Lücke zu schließen, stellen wir OmniVideoBench vor – ein großskaliges und sorgfältig gestaltetes Benchmark-Set, das der Bewertung synergistischer audio-visueller Verstehensfähigkeit gewidmet ist und besonderen Wert auf Modaltätskomplementarität und logische Konsistenz legt. Konkret umfasst OmniVideoBench 1000 hochwertige Frage-Antwort-Paare (QA), die jeweils mit schrittweisen Schlussfolgerungsspuren annotiert sind und aus 628 vielfältigen Videos mit Längen von mehreren Sekunden bis zu 30 Minuten stammen. Alle Paare wurden manuell verifiziert, um vollständige Korrektheit und Einzigartigkeit sicherzustellen. Zudem umfasst OmniVideoBench 13 sorgfältig entworfene Fragetypen, die zeitliche Schlussfolgerung, räumliche Lokalisierung, Zählung, kausale Inferenz, Zusammenfassung und weitere Aspekte abdecken, wodurch die zentralen Herausforderungen des Videoverstehens umfassend erfasst werden. Die Bewertung mehrerer MLLMs auf OmniVideoBench offenbart eine deutliche Leistungslücke zwischen Modellleistung und menschlicher Schlussfolgerung, wobei Open-Source-Modelle signifikant hinter ihren Closed-Source-Konkurrenten zurückbleiben, was die inhärente Schwierigkeit echter audio-visueller Schlussfolgerung unterstreicht. Wir werden OmniVideoBench veröffentlichen, um die Entwicklung von MLLMs mit stärkeren und allgemeiner anwendbaren Schlussfolgerungsfähigkeiten voranzutreiben.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 4 Monaten

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang32 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang32 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OmniVideoBench: Eine Bewertung der audiovisuellen Verständnisfähigkeit für Omni-MLLMs

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang32 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang

Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui Shihao Li Yuanxing Zhang Jiafu Tang Zhenghao Song Dingling Zhang