TransFuse : Fusion de Transformers et de CNNs pour la segmentation d'images médicales

La segmentation d’images médicales – préalable essentiel à de nombreuses applications cliniques – a connu un progrès considérable grâce aux avancées récentes des réseaux neuronaux convolutifs (CNN). Toutefois, cette approche présente des limites générales dans la modélisation des relations à longue portée explicites, et les solutions existantes, qui reposent sur la construction d’encodeurs profonds associés à des opérations de downsampling agressives, entraînent des réseaux trop profonds et une perte de détails locaux. Par conséquent, la tâche de segmentation nécessite une solution améliorée permettant d’optimiser l’efficacité de la modélisation des contextes globaux tout en préservant une forte fidélité aux détails de bas niveau. Dans cet article, nous proposons une nouvelle architecture parallèle en branches, nommée TransFuse, pour relever ce défi. TransFuse combine les Transformers et les CNN de manière parallèle, permettant ainsi une capture efficace à la fois des dépendances globales et des détails spatiaux de bas niveau, mais de manière nettement plus légère. En outre, nous introduisons une nouvelle technique de fusion, le module BiFusion, conçu pour fusionner efficacement les caractéristiques multi-niveaux provenant des deux branches. Des expériences étendues montrent que TransFuse atteint des résultats état-de-l’art récents sur des jeux de données médicaux 2D et 3D, incluant la segmentation de polypes, de lésions cutanées, de hanches et de prostate, tout en réduisant significativement le nombre de paramètres et en améliorant considérablement la vitesse d’inférence.