Ensemble de gradients gloutons pour une réponse visuelle aux questions robuste

Le biais linguistique constitue un problème critique dans le domaine de la réponse aux questions visuelles (VQA), où les modèles ont tendance à exploiter les biais présents dans les jeux de données pour prendre leurs décisions finales, sans tenir suffisamment compte des informations visuelles. En conséquence, ces modèles présentent une dégradation des performances sur des données hors distribution ainsi qu’une explication visuelle insuffisante. À partir d’une analyse expérimentale des méthodes existantes de VQA robuste, nous mettons en évidence deux sources du biais linguistique dans le VQA : le biais de distribution et le biais des raccourcis. Nous proposons par la suite un nouveau cadre débiaisé, appelé Greedy Gradient Ensemble (GGE), qui combine plusieurs modèles biaisés afin d’apprendre un modèle de base débaisé. Grâce à une stratégie gloutonne, GGE pousse les modèles biaisés à s’ajuster de manière excessive à la distribution biaisée des données en priorité, ce qui incite le modèle de base à accorder davantage d’attention aux exemples particulièrement difficiles à traiter par les modèles biaisés. Les expérimentations montrent que notre méthode exploite de manière plus efficace les informations visuelles et atteint des performances de pointe sur le diagnostic du jeu de données VQA-CP, sans nécessiter d’annotations supplémentaires.