Ensemble De Données d'évaluation Du Modèle De Récompense Vidéo VideoRewardBench
Date
URL du document
Licence
MIT
VideoRewardBench, développé conjointement par l'Université des sciences et technologies de Chine et le laboratoire Noah's Ark de Huawei, est le premier banc d'essai d'évaluation complet de 2025 couvrant intégralement les quatre dimensions fondamentales de la compréhension vidéo : perception, connaissance, raisonnement et sécurité. Parmi les articles de recherche associés, on peut citer… VideoRewardBench : Évaluation complète des modèles de récompense multimodaux pour la compréhension vidéoL'objectif est d'évaluer systématiquement la capacité du modèle à formuler des jugements de préférence et des évaluations de la qualité des résultats générés dans des scénarios complexes de compréhension vidéo.
L'ensemble de données contient 1 563 échantillons étiquetés, comprenant 1 482 vidéos différentes et 1 559 questions différentes. Chaque échantillon se compose d'une séquence vidéo-texte, d'une réponse privilégiée et d'une réponse rejetée.
Distribution des données :
Réparti par dimension de tâche, l'ensemble de données couvre cinq dimensions d'évaluation principales, et la répartition globale est relativement équilibrée.
- Perception de la forme longue : 283 groupes (18.1%)
- Perception sous forme abrégée : 413 groupes (26,4%)
- Connaissances : 238 ensembles (15.2%)
- Raisonnement : 278 groupes (17,8%)
- Sécurité : 351 jeux (22.5%)
D'après la répartition de la durée des vidéos, les vidéos courtes prédominent :
- ≤ 1 minute : 59,9%
- 1 à 5 minutes : 33,21 TP3T
- > 5 minutes : 6,9%
Statistiques par texte
- Longueur moyenne des questions : 28,8 mots
- Longueur moyenne des réponses : 103,8 mots
- Longueur moyenne des réponses acceptées/rejetées : 102,9/104,6 mots
La distribution similaire des longueurs des réponses préférées et rejetées indique que l'étiquetage des préférences est principalement déterminé par la qualité de la réponse plutôt que par les différences de longueur du texte.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.