Segmentation d'images médicales par décodage à attention en cascade

Les Transformers ont montré un grand potentiel dans la segmentation d’images médicales grâce à leur capacité à capturer des dépendances à longue portée via l’attention auto-attention. Toutefois, ils manquent de capacité à apprendre les relations locales (contextuelles) entre pixels. Les travaux antérieurs ont tenté de surmonter ce problème en intégrant des couches de convolution soit dans le module encodeur, soit dans le module décodeur des Transformers, ce qui peut parfois entraîner des caractéristiques incohérentes. Pour remédier à ce défaut, nous proposons un nouveau décodeur basé sur l’attention, nommé CASCaded Attention DEcoder (CASCADE), qui exploite les caractéristiques multi-échelles des Transformers visuels hiérarchiques. CASCADE se compose de i) une porte d’attention qui fusionne les caractéristiques à l’aide de connexions de saut (skip connections), et ii) d’un module d’attention convolutive qui améliore le contexte à longue portée et local en supprimant les informations de fond. Nous adoptons un cadre d’agrégation de caractéristiques et de pertes en plusieurs étapes, en raison de sa convergence plus rapide et de ses performances supérieures. Nos expérimentations démontrent que les Transformers équipés de CASCADE surpassent significativement les approches de pointe basées sur les CNN et les Transformers, obtenant respectivement des améliorations de 5,07 % et 6,16 % sur les scores DICE et mIoU. CASCADE ouvre de nouvelles voies pour concevoir des décodeurs basés sur l’attention plus performants.