Évaluation générative basée sur la vidéo (Compréhension contextuelle)
« Évaluation de la Performance Générative Basée sur Vidéo (Compréhension Contextuelle) » est une tâche d'évaluation conçue pour mesurer les performances des modèles de dialogue vidéo génératifs en termes de compréhension contextuelle. Cette tâche s'appuie sur le jeu de données ActivityNet-200, en construisant un ensemble de test doté de légendes descriptives riches et dodes paires de questions-réponses annotées par des humains. Elle utilise le modèle GPT-3.5 pour évaluer les prédictions générées, visant à mesurer de manière exhaustive la compréhension du contenu vidéo par le modèle et ses capacités génératives, afin de favoriser l'optimisation des performances et le développement d'applications de systèmes de dialogue vidéo.