MURAL : Récupération multimodale et multitâche à travers les langues

Les paires image-légende et les paires de traduction fournissent toutes deux un moyen d’apprendre des représentations profondes ainsi que des liens entre les langues. Nous utilisons ces deux types de paires dans MURAL (MUltimodal, MUltitask Representations Across Languages), un encodeur dual qui résout deux tâches : 1) la correspondance image-texte et 2) la correspondance entre paires de traduction. En intégrant des milliards de paires de traduction, MURAL étend ALIGN (Jia et al., PMLR’21), un encodeur dual de pointe appris à partir de 1,8 milliard de paires image-texte bruitées. Lorsqu’on utilise les mêmes encodeurs, les performances de MURAL égalent ou dépassent celles d’ALIGN en récupération cross-modale sur des langues bien dotées, sur plusieurs jeux de données. Plus important encore, MURAL améliore considérablement les performances sur les langues peu dotées, démontrant ainsi que l’apprentissage texte-texte peut compenser le manque d’exemples de paires image-légende pour ces langues. Sur le jeu de données Wikipedia Image-Text, par exemple, MURAL-base améliore en moyenne de 8,1 % le rappel moyen en mode zero-shot pour huit langues peu dotées, et de 6,8 % en moyenne lors du fine-tuning. Nous montrons également que les représentations textuelles de MURAL se regroupent non seulement selon des liens généalogiques, mais aussi selon des principes de linguistique régionale, tels que le Sprachbund balkanique.