VideoRewardBench-Datensatz Zur Evaluierung Des Videobelohnungsmodells
VideoRewardBench, eine gemeinsame Entwicklung der Universität für Wissenschaft und Technologie Chinas und des Huawei Noah's Ark Lab, ist der erste umfassende Evaluierungs-Benchmark aus dem Jahr 2025, der alle vier Kerndimensionen des Videoverständnisses abdeckt: Wahrnehmung, Wissen, Schlussfolgerung und Sicherheit. Zugehörige Forschungsarbeiten umfassen… VideoRewardBench: Umfassende Evaluierung multimodaler Belohnungsmodelle für das VideoverständnisZiel ist es, die Fähigkeit des Modells zur Präferenzbewertung und Qualitätsbeurteilung der generierten Ergebnisse in komplexen Videoanalyseszenarien systematisch zu evaluieren.
Der Datensatz umfasst 1.563 annotierte Beispiele mit 1.482 verschiedenen Videos und 1.559 verschiedenen Fragen. Jedes Beispiel besteht aus einer Video-Text-Aufforderung, einer bevorzugten Antwort und einer abgelehnten Antwort.
Verteilung des Datensatzes:
Aufgeteilt nach Aufgabendimension deckt der Datensatz fünf zentrale Bewertungsdimensionen ab, und die Gesamtverteilung ist relativ ausgeglichen.
- Wahrnehmung in Langform: 283 Gruppen (18.1%)
- Kurzform-Wahrnehmung: 413 Gruppen (26,4%)
- Wissen: 238 Mengen (15.2%)
- Begründung: 278 Gruppen (17,8%)
- Sicherheit: 351 Sätze (22.5%)
Basierend auf der Verteilung der Videolänge sind die Videos überwiegend kurz:
- ≤ 1 Minute: 59,9%
- 1–5 Minuten: 33,21 TP3T
- > 5 Minuten: 6,9%
Statistik per Text
- Durchschnittliche Fragenlänge: 28,8 Wörter
- Durchschnittliche Antwortlänge: 103,8 Wörter
- Durchschnittliche Länge der bevorzugten/abgelehnten Antworten: 102,9 / 104,6 Wörter
Die ähnliche Längenverteilung der bevorzugten und abgelehnten Antworten deutet darauf hin, dass die Präferenzkennzeichnung in erster Linie durch die Qualität der Antwort und weniger durch Unterschiede in der Textlänge bestimmt wird.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.