HyperAIHyperAI
il y a 2 mois

RUBi : Réduction des biais unimodaux dans les réponses aux questions visuelles

Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh
RUBi : Réduction des biais unimodaux dans les réponses aux questions visuelles
Résumé

La tâche de Visual Question Answering (VQA) consiste à répondre à des questions sur une image. Certains modèles de VQA exploitent souvent des biais unimodaux pour fournir la bonne réponse sans utiliser les informations de l'image. En conséquence, ils subissent une baisse considérable de leurs performances lorsqu'ils sont évalués sur des données en dehors de leur distribution d'entraînement. Ce problème critique les rend inadaptés aux situations réelles.Nous proposons RUBi, une nouvelle stratégie d'apprentissage visant à réduire les biais dans tout modèle de VQA. Cette méthode diminue l'importance des exemples les plus biaisés, c'est-à-dire ceux qui peuvent être correctement classés sans regarder l'image. Elle force implicitement le modèle VQA à utiliser les deux modalités d'entrée plutôt que de s'appuyer sur les régularités statistiques entre la question et la réponse. Nous utilisons un modèle ne prenant en compte que la question pour capturer les biais linguistiques en identifiant quand ces régularités indésirables sont utilisées. Ce modèle empêche le modèle VQA de base d'apprendre ces régularités en influençant ses prédictions. Cela conduit à un ajustement dynamique de la perte afin de compenser les biais. Nous validons nos contributions en surpassant les résultats actuels de l'état de l'art sur VQA-CP v2. Ce jeu de données est spécifiquement conçu pour évaluer la robustesse des modèles VQA lorsqu'ils sont exposés à différents biais dans les questions au moment du test par rapport à ce qu'ils ont vu pendant l'entraînement.Notre code est disponible : github.com/cdancette/rubi.bootstrap.pytorch