il y a 3 mois

Repenser les décodeurs pour la segmentation sémantique basée sur les Transformers : une perspective de compression

Qishuai Wen, Chun-Guang Li

Résumé

Les méthodes de pointe pour la segmentation sémantique basée sur les Transformers adoptent généralement des décodesurs Transformers qui extraient des embeddings supplémentaires à partir des embeddings d’image via une attention croisée, raffinent soit les uns, soit les deux types d’embeddings par attention self-attention, puis projettent les embeddings d’image sur les embeddings supplémentaires à l’aide d’un produit scalaire. Malgré leurs succès remarquables, ces architectures empiriques manquent encore de justifications ou d’interprétations théoriques, ce qui freine toute amélioration potentiellement fondée sur des principes rigoureux. Dans ce papier, nous soutenons qu’il existe des liens fondamentaux entre la segmentation sémantique et la compression, en particulier entre les décodesurs Transformers et l’Analyse en Composantes Principales (PCA). À partir de cette perspective, nous proposons DEPICT (DEcoder for PrIncipled semantiC segemenTation), un décodeur entièrement basé sur l’attention, de type « boîte blanche », dont les interprétations sont les suivantes : 1) l’opérateur d’attention self-attention raffine les embeddings d’image afin de construire un sous-espace principal idéal aligné avec la supervision et conservant la plus grande quantité d’information ; 2) l’opérateur d’attention croisée cherche à obtenir une approximation de faible rang des embeddings d’image raffinés, qui devrait constituer un ensemble de bases orthonormées du sous-espace principal et correspondre aux classes prédéfinies ; 3) l’opération de produit scalaire génère une représentation compacte des embeddings d’image, utilisée comme masque de segmentation. Des expériences menées sur le jeu de données ADE20K montrent que DEPICT surpasse de manière cohérente son homologue « boîte noire », Segmenter, tout en étant léger et plus robuste.