Distillation adaptative multimodale pour exploiter les encodeurs unimodaux dans les tâches vision-langage

Les encodeurs cross-modaux destinés aux tâches vision-langage (VL) sont généralement préentraînés sur des jeux de données vision-langage soigneusement curatifs. Bien que ces jeux de données atteignent une échelle d’environ 10 millions d’échantillons, le coût du travail nécessaire pour les étendre davantage devient prohibitif. À l’inverse, les encodeurs unimodaux sont préentraînés à l’aide d’annotations plus simples, moins coûteuses à produire, ce qui leur permet d’atteindre des échelles allant de centaines de millions à des milliards d’exemples. En conséquence, les encodeurs unimodaux ont atteint des performances de pointe (SOTA) sur de nombreuses tâches en aval. Toutefois, des défis subsistent lors de leur application aux tâches VL : les données d’entraînement préalable ne sont pas optimales pour les architectures cross-modales, et leur utilisation nécessite des ressources computationnelles importantes. En outre, les architectures unimodales manquent d’interactions cross-modales, qui ont démontré des avantages significatifs pour les tâches VL. Par conséquent, la manière optimale d’exploiter les encodeurs unimodaux préentraînés dans le cadre de tâches VL reste un domaine de recherche actif. Dans ce travail, nous proposons une méthode permettant d’exploiter efficacement des encodeurs unimodaux vision et texte pour les tâches VL, en complétant les approches existantes tout en préservant une complexité computationnelle modérée. Plus précisément, nous introduisons une distillation adaptative multimodale (MAD), qui extrait de manière adaptative les connaissances pertinentes des encodeurs préentraînés pour les transférer vers des encodeurs VL cross-modaux. En second lieu, afin de mieux capturer les effets subtils sur les performances des tâches VL, nous proposons un protocole d’évaluation incluant le raisonnement commonsensuel visuel (VCR), l’entailment visuel (SNLI-VE) et la réponse à questions visuelles (VQA), dans diverses conditions de contrainte de données et de décalage de domaine. Les expériences montrent que MAD permet des gains constants dans des conditions à faible nombre d’exemples (low-shot), de décalage de domaine et de supervision complète, sur les tâches VCR, SNLI-VE et VQA, atteignant ainsi des performances SOTA sur VCR par rapport à d’autres modèles unimodaux préentraînés sur des données image-texte. Enfin, MAD surpasse les travaux concurrents utilisant un encodeur vision préentraîné à partir de CLIP. Le code sera rendu disponible.