HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Ensemble De Données d'évaluation Du Modèle De Récompense Vidéo VideoRewardBench

Discuter sur Discord

Date

il y a 18 heures

Organisation

Université des sciences et technologies de Chine

URL du document

2509.00484

Licence

MIT

VideoRewardBench, développé conjointement par l'Université des sciences et technologies de Chine et le laboratoire Noah's Ark de Huawei, est le premier banc d'essai d'évaluation complet de 2025 couvrant intégralement les quatre dimensions fondamentales de la compréhension vidéo : perception, connaissance, raisonnement et sécurité. Parmi les articles de recherche associés, on peut citer… VideoRewardBench : Évaluation complète des modèles de récompense multimodaux pour la compréhension vidéoL'objectif est d'évaluer systématiquement la capacité du modèle à formuler des jugements de préférence et des évaluations de la qualité des résultats générés dans des scénarios complexes de compréhension vidéo.

L'ensemble de données contient 1 563 échantillons étiquetés, comprenant 1 482 vidéos différentes et 1 559 questions différentes. Chaque échantillon se compose d'une séquence vidéo-texte, d'une réponse privilégiée et d'une réponse rejetée.

Distribution des données :

Réparti par dimension de tâche, l'ensemble de données couvre cinq dimensions d'évaluation principales, et la répartition globale est relativement équilibrée.

  • Perception de la forme longue : 283 groupes (18.1%)
  • Perception sous forme abrégée : 413 groupes (26,4%)
  • Connaissances : 238 ensembles (15.2%)
  • Raisonnement : 278 groupes (17,8%)
  • Sécurité : 351 jeux (22.5%)

D'après la répartition de la durée des vidéos, les vidéos courtes prédominent :

  • ≤ 1 minute : 59,9%
  • 1 à 5 minutes : 33,21 TP3T
  • > 5 minutes : 6,9%

Statistiques par texte

  • Longueur moyenne des questions : 28,8 mots
  • Longueur moyenne des réponses : 103,8 mots
  • Longueur moyenne des réponses acceptées/rejetées : 102,9/104,6 mots

La distribution similaire des longueurs des réponses préférées et rejetées indique que l'étiquetage des préférences est principalement déterminé par la qualité de la réponse plutôt que par les différences de longueur du texte.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.

Co-codage avec IA
GPU prêts à l'emploi
Meilleurs prix

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp