Évaluation générative basée sur la vidéo
Le benchmark de performance générative basé sur la vidéo est une tâche d'évaluation conçue pour évaluer de manière exhaustive les performances des modèles de dialogue vidéo selon cinq aspects clés : précision de l'information, orientation vers le détail, compréhension du contexte, compréhension temporelle et cohérence. Cette tâche construit un ensemble de tests à partir du dataset ActivityNet-200, qui comprend des vidéos riches et densément décrites, ainsi que des paires de questions-réponses annotées par des humains. Elle utilise également le modèle GPT-3.5 pour développer un pipeline de notation qui fournit des scores relatifs de 1 à 5 pour les prédictions générées. Ce benchmark aide à faire progresser le développement et l'optimisation des modèles de dialogue vidéo, améliorant ainsi leurs performances dans les applications réelles.