HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance de questions vidéo à vocabulaire ouvert : Un nouveau benchmark pour évaluer la généralisabilité des modèles de reconnaissance de questions vidéo

Dohwan Ko Ji Soo Lee Miso Choi Jaewon Chu Jihwan Park Hyunwoo J. Kim

Résumé

La réponse à des questions sur des vidéos (VideoQA) est une tâche exigeante qui repose sur un raisonnement multi-modale complexe. Contrairement à la VideoQA à choix multiples, dont l'objectif est de prédire une réponse parmi plusieurs options proposées, la VideoQA à réponse ouverte vise à répondre à des questions sans restreindre les réponses possibles. Toutefois, la majorité des modèles précédents de VideoQA traitent la VideoQA à réponse ouverte comme une tâche de classification, en affectant les paires vidéo-question à un ensemble fixe de réponses (c’est-à-dire un vocabulaire fermé), limité aux réponses fréquentes (par exemple, les 1000 réponses les plus courantes). Cette approche conduit les modèles à être biaisés vers les réponses fréquentes et à échouer à généraliser aux réponses hors vocabulaire (out-of-vocabulary). Nous proposons donc un nouveau benchmark, le Open-vocabulary Video Question Answering (OVQA), destiné à évaluer la capacité de généralisation des modèles de VideoQA en prenant en compte les réponses rares et inédites. Par ailleurs, afin d’améliorer la capacité de généralisation des modèles, nous introduisons un nouveau verbeur doux (soft verbalizer) basé sur un graphe neuronal (GNN), qui améliore la prédiction des réponses rares et inédites en agrégeant les informations provenant de mots similaires. Pour l’évaluation, nous proposons de nouvelles bases (baselines) en adaptant les modèles existants de VideoQA à réponse ouverte (conçus pour un vocabulaire fermé) et en améliorant leurs performances grâce à une prise en compte explicite des réponses rares et inédites. Nos études d’ablation et analyses qualitatives démontrent que notre verbeur doux basé sur un GNN améliore significativement les performances du modèle, en particulier pour les réponses rares et inédites. Nous espérons que notre benchmark OVQA servira de référence pour évaluer la généralisation des modèles de VideoQA et inspirera des recherches futures. Le code est disponible à l’adresse suivante : https://github.com/mlvlab/OVQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp