HyperAIHyperAI
il y a 16 jours

Transformateur à proxy de caractéristiques pour la segmentation à faible exemple

Jian-Wei Zhang, Yifan Sun, Yi Yang, Wei Chen
Transformateur à proxy de caractéristiques pour la segmentation à faible exemple
Résumé

La segmentation à peu de exemples (Few-shot segmentation, FSS) vise à réaliser une segmentation sémantique sur des classes nouvelles à partir de quelques échantillons d’appui annotés. En réexaminant les avancées récentes, nous constatons que le cadre actuel de la FSS s’est éloigné considérablement du cadre de la segmentation supervisée : alors que les méthodes de segmentation supervisée utilisent une tête de classification linéaire simple, les approches FSS actuelles s’appuient généralement sur un décodeur complexe pour effectuer un traitement sophistiqué du correspondance pixel par pixel à partir des caractéristiques profondes. En raison de la complexité du décodeur et de son pipeline de correspondance, ce cadre FSS s’avère difficile à suivre et à généraliser. Ce papier réintroduit le cadre simple et direct « extracteur de caractéristiques + tête de classification linéaire » et propose une nouvelle méthode, appelée Feature-Proxy Transformer (FPTrans), dans laquelle le « proxy » correspond au vecteur représentant une classe sémantique dans la tête de classification linéaire. FPTrans repose sur deux principes clés pour apprendre des caractéristiques discriminantes et des proxies représentatifs : 1) Pour mieux exploiter les échantillons d’appui limités, l’extracteur de caractéristiques permet à la requête d’interagir avec les caractéristiques d’appui à partir des couches inférieures jusqu’aux couches supérieures, grâce à une stratégie d’incitation novatrice ; 2) FPTrans utilise plusieurs proxies locaux pour le fond (plutôt qu’un seul), car le fond n’est pas homogène et peut contenir certaines régions de premier plan nouvelles. Ces deux principes peuvent être facilement intégrés dans un modèle d’architecture Vision Transformer grâce au mécanisme d’incitation au sein du transformateur. Une fois les caractéristiques et les proxies appris, FPTrans effectue directement la segmentation en comparant la similarité cosinus entre les caractéristiques et les proxies. Bien que le cadre soit simple, nous démontrons que FPTrans atteint une précision en FSS compétitive, comparable aux meilleures méthodes basées sur des décodeurs.

Transformateur à proxy de caractéristiques pour la segmentation à faible exemple | Articles de recherche récents | HyperAI