Ensemble De Données d&#x27;évaluation Du Modèle De Récompense Vidéo VideoRewardBench

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données Multimodales De Compréhension Des Incendies DetectiumFire

Ensemble De Données d'évaluation De SimpleQA : Questions Factuelles Concises Et Réponses Aux questions.

Ensemble De Données d'évaluation De La Modification d'images EditReward-Bench

5.08 GB61

Ensemble De Données d'évaluation Du Raisonnement Vocal VERA

2.37 GB59

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

Ensemble De Données Des Tâches De l'outil Physique PhysToolBench

Commencer Voir les tarifs

1.56 GB58

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Utiliser ce jeu de données Discuter sur Discord

Date

il y a 2 mois

Organisation

URL du document

2509.00484

Licence

MIT

Balises

Modélisation Des Préférences

Compréhension Vidéo

Distribution des données :

Réparti par dimension de tâche, l'ensemble de données couvre cinq dimensions d'évaluation principales, et la répartition globale est relativement équilibrée.

Perception de la forme longue : 283 groupes (18.1%)
Perception sous forme abrégée : 413 groupes (26,4%)
Connaissances : 238 ensembles (15.2%)
Raisonnement : 278 groupes (17,8%)
Sécurité : 351 jeux (22.5%)

D'après la répartition de la durée des vidéos, les vidéos courtes prédominent :

≤ 1 minute : 59,9%
1 à 5 minutes : 33,21 TP3T
> 5 minutes : 6,9%

Statistiques par texte

Longueur moyenne des questions : 28,8 mots
Longueur moyenne des réponses : 103,8 mots
Longueur moyenne des réponses acceptées/rejetées : 102,9/104,6 mots

Associé Jeux de données

Ensemble De Données De Référence HumanSense

Ensemble De Données De Compréhension De l'interface Multiplateforme VenusBench-GD

Ensemble De Données Multimodales De Compréhension Des Incendies DetectiumFire

Ensemble De Données d'évaluation De SimpleQA : Questions Factuelles Concises Et Réponses Aux questions.

Ensemble De Données d'évaluation De La Modification d'images EditReward-Bench

5.08 GB61

Ensemble De Données d'évaluation Du Raisonnement Vocal VERA

2.37 GB59

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données Auto-supervisé De Conscience Spatiale SSRL-81k

Ensemble De Données Des Tâches De l'outil Physique PhysToolBench