Visual Prompting via Image Inpainting Stimulation Visuelle par le Remplissage d'Image

Comment adapter un modèle visuel pré-entraîné à de nouvelles tâches en aval sans aucun ajustement spécifique à la tâche ou modification du modèle ? Inspirés par l'approche des prompts en traitement du langage naturel (NLP), cet article explore le concept de prompting visuel : étant donné des exemples d'entrée-sortie d'une nouvelle tâche au moment du test et une nouvelle image d'entrée, l'objectif est de produire automatiquement l'image de sortie, cohérente avec les exemples fournis. Nous montrons que formuler ce problème comme un simple remplissage d'image (inpainting) – littéralement remplir un trou dans une image de prompt visuel concaténée – s'avère surprenamment efficace, à condition que l'algorithme de remplissage ait été entraîné sur les données appropriées. Nous avons entraîné des auto-encodeurs masqués sur un nouveau jeu de données que nous avons compilé – 88 000 figures non étiquetées provenant de sources d'articles académiques sur Arxiv. Nous appliquons le prompting visuel à ces modèles pré-entraînés et présentons des résultats sur diverses tâches d'image à image en aval, notamment la segmentation du premier plan, la détection d'un seul objet, la colorisation, la détection de contours, etc.