Explicit Visual Prompting pour les Segmentations de Premier Plan Universelles

La segmentation de premier plan est un problème fondamental en vision par ordinateur, qui comprend la détection d'objets saillants, la détection de fausses images, la détection de flou hors focus, la détection d'ombres et la détection d'objets camouflés. Les travaux précédents ont généralement recouru à des solutions spécifiques au domaine pour aborder les questions de précision et de robustesse dans ces applications. Dans cet article, nous présentons un cadre unifié pour plusieurs tâches de segmentation de premier plan sans aucune conception spécifique à une tâche. Nous nous inspirons des protocoles largement utilisés de pré-entraînement suivi d'un ajustement par incitation (prompt tuning) en traitement du langage naturel (NLP) et proposons un nouveau modèle d'incitation visuelle explicite, nommé Explicit Visual Prompting (EVP). Contrairement aux incitations visuelles précédentes qui sont généralement des plongements implicites au niveau du jeu de données, notre intuition clé est d'imposer aux paramètres ajustables de se concentrer sur le contenu visuel explicite de chaque image individuelle, c'est-à-dire les caractéristiques provenant des plongements de patch figés et des composantes à haute fréquence. Notre méthode fige un modèle pré-entraîné puis apprend des connaissances spécifiques à une tâche en utilisant quelques paramètres supplémentaires. Malgré l'introduction d'un nombre limité de paramètres ajustables, EVP obtient des performances supérieures à celles du fine-tuning complet et d'autres méthodes de fine-tuning efficaces en termes de paramètres. Des expériences menées sur quatorze jeux de données couvrant cinq tâches montrent que la méthode proposée surpasses les autres méthodes spécifiques à une tâche tout en étant considérablement plus simple. La méthode proposée démontre son évolutivité dans différentes architectures, poids pré-entraînés et tâches. Le code est disponible à l'adresse suivante : https://github.com/NiFangBaAGe/Explicit-Visual-Prompt.