Explicit Visual Prompting for Low-Level Structure Segmentations Indications Visuelles Explicites pour les Segments de Structure de Niveau Inférieur

Nous abordons le problème générique de la détection de structures de bas niveau dans les images, qui comprend le segmentage des parties manipulées, l'identification des pixels hors de focus, la séparation des régions ombragées et la détection d'objets cachés. Bien que chaque sujet ait généralement été traité avec une solution spécifique au domaine, nous montrons qu'une approche unifiée offre de bons résultats sur l'ensemble de ces tâches. Nous nous inspirons des protocoles largement utilisés de pré-entraînement suivi d'un ajustement par incitation (prompt tuning) en traitement du langage naturel (NLP) pour proposer un nouveau modèle d'incitation visuelle, nommé Incitation Visuelle Explicite (EVP). Contrairement aux méthodes d'incitation visuelle précédentes, qui sont généralement des plongements implicites au niveau du jeu de données, notre principale intuition est d'imposer aux paramètres ajustables de se concentrer sur le contenu visuel explicite de chaque image individuelle, c'est-à-dire les caractéristiques issues des plongements de patch figés et les composantes à haute fréquence de l'entrée. Le modèle EVP proposé surpasse considérablement les autres protocoles d'ajustement efficaces en termes de paramètres sous le même nombre de paramètres ajustables (5,7 % de paramètres supplémentaires entraînables pour chaque tâche). L'EVP atteint également des performances à l'état de l'art sur diverses tâches de segmentation de structures de bas niveau comparativement aux solutions spécifiques à chaque tâche. Notre code est disponible à l'adresse suivante : https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.