il y a 7 jours

Aggrégation de coût avec un transformateur Swin à convolution 4D pour la segmentation à peu de exemples

Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim

Résumé

Cet article présente un nouveau réseau d’agrégation de coûts, appelé Volumetric Aggregation with Transformers (VAT), dédié à la segmentation en peu d’exemples. L’utilisation des transformateurs permet d’améliorer l’agrégation des cartes de corrélation grâce à une attention self-attention sur un champ réceptif global. Toutefois, la tokenisation d’une carte de corrélation pour le traitement par transformateur peut s’avérer néfaste, car la discontinuité aux frontières des tokens réduit le contexte local disponible aux abords de ces derniers et diminue la biais d’induction. Pour résoudre ce problème, nous proposons un transformateur Swin à convolution 4D, dans lequel un transformateur Swin de haute dimension est précédé par une série de couches de convolution à noyau petit, qui injectent un contexte local à tous les pixels et introduisent un biais d’induction convolutif. Nous améliorons par ailleurs les performances d’agrégation en appliquant les transformateurs dans une structure pyramidale, où l’agrégation à un niveau plus grossier guide celle à un niveau plus fin. Le bruit présent dans la sortie du transformateur est ensuite filtré dans le décodeur suivant grâce à l’embedding d’apparence de la requête. Grâce à ce modèle, un nouvel état de l’art est établi sur l’ensemble des benchmarks standards en segmentation en peu d’exemples. Il est également démontré que VAT atteint des performances de pointe en correspondance sémantique, où l’agrégation de coût joue un rôle central.