Les Images Parlent en Images : Un Peintre Généraliste pour l'Apprentissage Visuel Contextuel

L'apprentissage en contexte, en tant que nouveau paradigme dans le traitement du langage naturel (NLP), permet au modèle de s'adapter rapidement à diverses tâches avec seulement quelques exemples et invites. Cependant, en vision par ordinateur, les difficultés de l'apprentissage en contexte résident dans le fait que les tâches varient considérablement en termes de représentations de sortie, ce qui rend incertaine la définition des invites de tâche polyvalentes que le modèle de vision peut comprendre et transférer à des tâches hors domaine. Dans cette étude, nous présentons Painter, un modèle généraliste qui surmonte ces obstacles grâce à une solution centrée sur l'« image », c'est-à-dire en redéfinissant la sortie des tâches de vision centrale comme des images et en spécifiant les invites de tâche également sous forme d'images. Avec cette approche, notre processus d'entraînement est extrêmement simple, effectuant un masquage standard d'images sur des paires d'images d'entrée et de sortie assemblées. Cela permet au modèle d'exécuter des tâches conditionnées par des patchs d'image visibles. Ainsi, lors de l'inférence, nous pouvons utiliser une paire d'images d'entrée et de sortie provenant de la même tâche comme condition d'entrée pour indiquer quelle tâche doit être réalisée. Sans recourir à des techniques complexes ou superflues, notre modèle généraliste Painter peut atteindre une performance compétitive comparée aux modèles spécialisés bien établis, sur sept tâches visuelles représentatives allant de la compréhension visuelle de haut niveau au traitement d'image de bas niveau. De plus, Painter surpass significativement les modèles généralistes récents sur plusieurs tâches difficiles.