Interaction trilinéaire compacte pour la réponse aux questions visuelles

Dans le cadre de la réponse aux questions visuelles (Visual Question Answering, VQA), les réponses présentent une forte corrélation avec le sens de la question et les contenus visuels. Afin d'utiliser de manière sélective les informations provenant de l'image, de la question et de la réponse, nous proposons un nouveau modèle d'interaction trilinéaire qui apprend simultanément des associations de haut niveau entre ces trois entrées. En outre, pour surmonter la complexité des interactions, nous introduisons une décomposition PARALIND basée sur des tenseurs multimodaux, qui paramètre de manière efficace l'interaction trilinéaire entre les trois entrées. De plus, pour la première fois dans le contexte de la VQA à réponse libre et ouverte, nous appliquons la distillation de connaissances. Cette approche permet non seulement de réduire le coût computationnel et la mémoire requise, mais aussi de transférer les connaissances du modèle d'interaction trilinéaire vers un modèle d'interaction bilinéaire. Les expériences étendues menées sur les jeux de données standards TDIUC, VQA-2.0 et Visual7W montrent que le modèle compact d'interaction trilinéaire proposé atteint des résultats de pointe lorsqu'il est utilisé avec un seul modèle sur les trois jeux de données.