VideoRewardBench: Umfassende Bewertung multimodaler Belohnungsmodelle für das Videoverstehen
VideoRewardBench: Umfassende Bewertung multimodaler Belohnungsmodelle für das Videoverstehen
Zhihong Zhang Xiaojian Huang Jin Xu Zhuodong Luo Xinzhi Wang Jiansheng Wei Xuejin Chen

Abstract
Multimodale Belohnungsmodelle (MRMs) spielen eine entscheidende Rolle bei der Ausbildung, Inferenz und Bewertung von großen visuellen Sprachmodellen (LVLMs), indem sie die Qualität von Antworten beurteilen. Bestehende Benchmarks zur Evaluation von MRMs im Video-Bereich leiden jedoch unter einer begrenzten Anzahl und Vielfalt an Fragen, einem Mangel an umfassenden Bewertungskriterien sowie einer unzureichenden Prüfung verschiedener MRM-Typen. Um diese Lücken zu schließen, stellen wir VideoRewardBench vor – den ersten umfassenden Benchmark, der vier zentrale Aspekte des Video-Verständnisses abdeckt: Wahrnehmung, Wissen, Schlussfolgerung und Sicherheit. Mittels eines künstlichen Intelligenz-unterstützten Datenaufbereitungsprozesses erstellen wir eine hochwertige Präferenzdatenbank mit 1.563 annotierten Samples, bestehend aus 1.482 einzigartigen Videos und 1.559 unterschiedlichen Fragen – das ist das 15-fache der Anzahl an Fragen im bisher umfangreichsten Benchmark. Jedes Sample besteht aus einem Tripel aus Video-Text-Prompt, ausgewählter Antwort und abgelehnter Antwort. Zudem führen wir eine umfassende Evaluation an 28 multimodalen Belohnungsmodellen durch, die drei Kategorien umfassen: generative, diskriminative und semi-skalar Modelle. Die Ergebnisse zeigen, dass selbst das führende Modell GPT-4o nur eine Gesamtgenauigkeit von 57,0 % erreicht, während der führende Open-Source-Modell Qwen2.5-VL-72B lediglich 53,3 % erreicht. Unsere Analyse liefert drei zentrale Erkenntnisse: (i) MRMs, die mittels Verstärkungslernen (RL) trainiert wurden, zeigen nicht zwangsläufig eine stärkere generalisierende Fähigkeit über Modalitäten hinweg als solche ohne RL; (ii) außer diskriminative MRMs können andere MRM-Typen bei unterschiedlichen Modellgrößen von einer Skalierung während der Inferenz profitieren; (iii) Unterschiede in der Anzahl der Eingabebilder pro Video wirken sich unterschiedlich auf verschiedene MRM-Typen aus. Wir sind überzeugt, dass VideoRewardBench einen herausfordernden und wertvollen Benchmark darstellt, der die Weiterentwicklung und Bewertung von MRMs im Video-Bereich voranbringt.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.