il y a 2 mois

kMaX-DeepLab : k-means Mask Transformer

Qihang Yu; Huiyu Wang; Siyuan Qiao; Maxwell Collins; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

Résumé

L'essor des transformateurs dans les tâches de vision ne se limite pas à l'avancement des conceptions de troncs de réseau, mais ouvre également une nouvelle ère pour la reconnaissance d'images de bout en bout (par exemple, la détection d'objets et la segmentation panoramique). Issus du traitement automatique des langues naturelles (NLP), les architectures de transformateurs, composées d'auto-attention et d'attention croisée, apprennent efficacement les interactions à longue portée entre les éléments d'une séquence. Cependant, nous constatons que la plupart des modèles visuels existants basés sur les transformateurs s'approprient simplement l'idée provenant du NLP, négligeant la différence cruciale entre les langages et les images, en particulier la longueur de séquence extrêmement importante des caractéristiques spatialement aplatis des pixels. Ceci entrave par la suite l'apprentissage de l'attention croisée entre les caractéristiques des pixels et les requêtes d'objets. Dans cet article, nous repensons la relation entre les pixels et les requêtes d'objets et proposons de reformuler l'apprentissage de l'attention croisée comme un processus de regroupement. Inspirés par l'algorithme traditionnel k-means, nous avons développé un k-means Mask Xformer (kMaX-DeepLab) pour les tâches de segmentation, qui non seulement améliore l'état de l'art, mais bénéficie également d'une conception simple et élégante. En conséquence, notre kMaX-DeepLab atteint une nouvelle performance record sur l'ensemble de validation COCO avec 58,0 % PQ, sur l'ensemble de validation Cityscapes avec 68,4 % PQ, 44,0 % AP et 83,5 % mIoU, ainsi que sur l'ensemble de validation ADE20K avec 50,9 % PQ et 55,2 % mIoU sans augmentation au moment du test ni jeu de données externe. Nous espérons que notre travail pourra apporter une contribution significative à la conception de transformateurs adaptés aux tâches visuelles. Le code TensorFlow et les modèles sont disponibles à l'adresse suivante : https://github.com/google-research/deeplab2 Une réimplémentation en PyTorch est également disponible à : https://github.com/bytedance/kmax-deeplab