HyperAIHyperAI
il y a 17 jours

Segmentation d'objets transparents dans le monde réel avec un Transformer

Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo
Segmentation d'objets transparents dans le monde réel avec un Transformer
Résumé

Ce travail présente un nouveau jeu de données pour la segmentation d’objets transparents à granularité fine, intitulé Trans10K-v2, qui étend Trans10K-v1, le premier jeu de données à grande échelle dédié à la segmentation d’objets transparents. Contrairement à Trans10K-v1, qui ne comptait que deux catégories limitées, notre nouveau jeu de données offre plusieurs avantages remarquables. (1) Il inclut 11 catégories fines d’objets transparents, couramment présents dans les environnements domestiques humains, ce qui le rend plus pertinent pour des applications réelles. (2) Trans10K-v2 pose des défis plus importants aux méthodes avancées actuelles de segmentation que sa version précédente. En outre, nous proposons une nouvelle pipeline de segmentation basée sur les transformateurs, nommée Trans2Seg. Premièrement, l’encodeur transformer de Trans2Seg offre un champ réceptif global, en contraste avec le champ réceptif local des réseaux de neurones convolutifs (CNN), ce qui lui confère des avantages significatifs par rapport aux architectures exclusivement basées sur les CNN. Deuxièmement, en reformulant la segmentation sémantique comme un problème de recherche dans un dictionnaire, nous avons conçu un ensemble de prototypes apprenables, utilisés comme requêtes dans le décodeur transformer de Trans2Seg, chaque prototype capturant les statistiques propres à une catégorie au sein de l’ensemble de données entier. Nous avons évalué plus de 20 méthodes récentes de segmentation sémantique, démontrant que Trans2Seg surpasse de manière significative toutes les approches basées sur les CNN, illustrant ainsi le potentiel de l’algorithme proposé pour résoudre efficacement le problème de la segmentation d’objets transparents.