Reconnaissance de questions vidéo à vocabulaire ouvert : Un nouveau benchmark pour évaluer la généralisabilité des modèles de reconnaissance de questions vidéo

La réponse à des questions sur des vidéos (VideoQA) est une tâche exigeante qui repose sur un raisonnement multi-modale complexe. Contrairement à la VideoQA à choix multiples, dont l'objectif est de prédire une réponse parmi plusieurs options proposées, la VideoQA à réponse ouverte vise à répondre à des questions sans restreindre les réponses possibles. Toutefois, la majorité des modèles précédents de VideoQA traitent la VideoQA à réponse ouverte comme une tâche de classification, en affectant les paires vidéo-question à un ensemble fixe de réponses (c’est-à-dire un vocabulaire fermé), limité aux réponses fréquentes (par exemple, les 1000 réponses les plus courantes). Cette approche conduit les modèles à être biaisés vers les réponses fréquentes et à échouer à généraliser aux réponses hors vocabulaire (out-of-vocabulary). Nous proposons donc un nouveau benchmark, le Open-vocabulary Video Question Answering (OVQA), destiné à évaluer la capacité de généralisation des modèles de VideoQA en prenant en compte les réponses rares et inédites. Par ailleurs, afin d’améliorer la capacité de généralisation des modèles, nous introduisons un nouveau verbeur doux (soft verbalizer) basé sur un graphe neuronal (GNN), qui améliore la prédiction des réponses rares et inédites en agrégeant les informations provenant de mots similaires. Pour l’évaluation, nous proposons de nouvelles bases (baselines) en adaptant les modèles existants de VideoQA à réponse ouverte (conçus pour un vocabulaire fermé) et en améliorant leurs performances grâce à une prise en compte explicite des réponses rares et inédites. Nos études d’ablation et analyses qualitatives démontrent que notre verbeur doux basé sur un GNN améliore significativement les performances du modèle, en particulier pour les réponses rares et inédites. Nous espérons que notre benchmark OVQA servira de référence pour évaluer la généralisation des modèles de VideoQA et inspirera des recherches futures. Le code est disponible à l’adresse suivante : https://github.com/mlvlab/OVQA.