HyperAIHyperAI
il y a 13 jours

Plus simple est mieux : la segmentation sémantique à peu de exemples avec le transformateur de poids de classificateur

Zhihe Lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang
Plus simple est mieux : la segmentation sémantique à peu de exemples avec le transformateur de poids de classificateur
Résumé

Un modèle de segmentation sémantique à quelques exemples est généralement composé d’un encodeur CNN, d’un décodeur CNN et d’un classificateur simple (destiné à séparer les pixels d’avant-plan des pixels d’arrière-plan). La plupart des méthodes existantes meta-apprennent les trois composants du modèle afin d’assurer une adaptation rapide à une nouvelle classe. Toutefois, étant donné qu’un seul exemple au maximum est disponible dans l’ensemble de support, l’adaptation efficace des trois composants à la nouvelle classe s’avère extrêmement difficile. Dans ce travail, nous proposons de simplifier la tâche de meta-apprentissage en nous concentrant uniquement sur le composant le plus simple, à savoir le classificateur, tout en laissant l’encodeur et le décodeur tels qu’ils sont après une phase de pré-entraînement. Nous supposons que si nous pré-entraînons un modèle de segmentation standard sur un ensemble de classes d’entraînement diversifiées, suffisamment annotées, l’encodeur et le décodeur pourront capturer des caractéristiques discriminatives riches et généralisables à toute classe inédite, rendant ainsi la phase ultérieure de meta-apprentissage superflue. Pour l’apprentissage meta du classificateur, nous introduisons un Transformer de Poids de Classificateur (CWT), conçu pour adapter dynamiquement les poids du classificateur entraîné sur l’ensemble de support à chaque image de requête de manière inductive. Des expériences étendues sur deux benchmarks standards montrent que, malgré sa simplicité, notre méthode surpasse largement les approches de pointe, souvent de manière significative. Le code est disponible à l’adresse suivante : https://github.com/zhiheLu/CWT-for-FSS.