Évaluation générative basée sur la vidéo (compréhension temporelle)
"Évaluation de la performance générative basée sur vidéo (Compréhension temporelle)" est une tâche de benchmarking conçue pour évaluer les capacités de compréhension temporelle des modèles de dialogue vidéo génératifs. Cette tâche construit un ensemble de tests à partir du jeu de données ActivityNet-200, qui comprend des légendes descriptives denses et des paires de questions-réponses annotées par des humains. Le pipeline d'évaluation développé en utilisant le modèle GPT-3.5 fournit un score relatif de 1 à 5 pour les prédictions générées, visant à mesurer de manière exhaustive la capacité du modèle à comprendre et générer du contenu tout au long de la chronologie vidéo, afin d'améliorer l'expérience d'interaction homme-machine.