Réseaux Transformer denses pour la segmentation d’images de microscopie électronique cérébrale

L'idée centrale des méthodes actuelles d'apprentissage profond pour la prédiction dense consiste à appliquer un modèle sur un patch régulier centré sur chaque pixel afin d'effectuer des prédictions au niveau des pixels. Ces approches sont toutefois limitées, car les patchs sont déterminés par l'architecture du réseau plutôt que par apprentissage à partir des données. Dans ce travail, nous proposons les réseaux transformer denses, capables d'apprendre automatiquement la forme et la taille des patchs à partir des données. Les réseaux transformer denses reposent sur une architecture encodeur-décodeur, dans laquelle une paire de modules transformer denses est insérée le long des chemins de l'encodeur et du décodeur. L'originalité de ce travail réside dans la proposition de solutions techniques permettant d'apprendre les formes et tailles des patchs à partir des données, tout en assurant efficacement la restauration de la correspondance spatiale nécessaire à la prédiction dense. Les modules transformer proposés sont différentiables, ce qui permet d'entraîner l'ensemble du réseau de manière end-to-end. Nous avons appliqué ces réseaux à des tâches de segmentation d'images biologiques, et les résultats montrent une performance supérieure par rapport aux méthodes de référence.