Évaluation Générative Basée Vidéo (Orientation Détail)
Le Benchmark de Performance Générative Basé sur la Vidéo (Orientation sur les Détails) est une référence pour évaluer les capacités orientées vers les détails des modèles de dialogue vidéo génératifs. Cette tâche s'appuie sur le dataset ActivityNet-200, en construisant un ensemble de test à partir de légendes descriptives riches et denses, annotées par des humains, ainsi que leurs paires de questions-réponses associées. Il utilise le modèle GPT-3.5 pour développer un pipeline d'évaluation qui fournit des scores relatifs de 1 à 5 pour les prédictions générées. L'objectif est d'améliorer la précision et la cohérence des modèles dans la compréhension et l'expression des détails, offrant une référence cruciale pour optimiser les performances des systèmes de dialogue vidéo.