Évaluation générative basée sur la vidéo (Consistance)
"Évaluation de la Performance Générative Basée sur Vidéo (Consistance)" est une tâche de benchmarking conçue pour évaluer la consistance des modèles de dialogue vidéo génératifs. Cette tâche repose sur le jeu de données ActivityNet-200, qui construit l'ensemble de test à partir de légendes descriptives denses et de paires de questions-réponses annotées par des humains. Un pipeline d'évaluation développé à l'aide du modèle GPT-3.5 est utilisé pour fournir un score relatif de 1 à 5 pour les prédictions générées. L'objectif est de mesurer la capacité du modèle à maintenir la cohérence de l'information et la logique au cours de plusieurs tours de dialogue, offrant des références cruciales pour optimiser les performances des systèmes de dialogue vidéo.