il y a 17 jours

MultiMAE : Autoencodeurs Masqués Multi-modaux Multi-tâches

Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir

Résumé

Nous proposons une stratégie de pré-entraînement appelée Autoencodeurs Masqués Multi-modaux Multi-tâches (MultiMAE). Elle se distingue de l’auto-encodage masqué standard par deux aspects clés : I) elle peut accepter de manière optionnelle des modalités d’information supplémentaires en entrée, en plus de l’image RGB (d’où le terme « multi-modale »), et II) son objectif d’entraînement inclut, en conséquence, la prédiction de plusieurs sorties en plus de l’image RGB (d’où le terme « multi-tâches »).Nous utilisons le masquage (à la fois sur les patches d’image et sur les modalités d’entrée) afin de rendre l’entraînement de MultiMAE tractable, tout en assurant que le réseau apprenne effectivement un codage prédictif inter-modale. Nous montrons que cette stratégie de pré-entraînement conduit à un cadre flexible, simple et efficace, offrant de meilleurs résultats en transfert sur des tâches ultérieures. En particulier, le même réseau pré-entraîné peut être utilisé de manière flexible, que de l’information supplémentaire par rapport aux images RGB soit disponible ou non — dans toutes les configurations, il obtient des résultats compétitifs, voire nettement supérieurs aux méthodes de référence. Pour éviter la nécessité de jeux de données d’entraînement contenant plusieurs modalités et tâches, nous entraînons MultiMAE entièrement à l’aide d’un étiquetage pseudo, ce qui rend le cadre largement applicable à tout jeu de données RGB.Les expériences sont menées sur plusieurs tâches de transfert (classification d’images, segmentation sémantique, estimation de profondeur) et plusieurs jeux de données (ImageNet, ADE20K, Taskonomy, Hypersim, NYUv2). Les résultats révèlent une capacité remarquable du modèle à réaliser un codage prédictif inter-modale et inter-tâche, démontrant ainsi des performances impressionnantes.