HiFuse : Réseau hiérarchique de fusion de caractéristiques multi-échelles pour la classification d’images médicales

La classification d’images médicales a connu un développement rapide grâce à l’impulsion apportée par les réseaux neuronaux convolutifs (CNN). Toutefois, la taille fixe du champ réceptif du noyau de convolution rend difficile la capture des caractéristiques globales des images médicales. Bien que le Transformer, basé sur l’attention auto-attentionnelle, soit capable de modéliser des dépendances à longue portée, il présente une complexité computationnelle élevée et manque de biais inductif local. De nombreuses études ont démontré que les caractéristiques globales et locales sont essentielles pour la classification d’images. Toutefois, les images médicales sont souvent marquées par des caractéristiques bruitées et dispersées, des variations intra-classes importantes ainsi que des similitudes inter-classes. Ce papier propose une nouvelle architecture de réseau hiérarchique à trois branches, appelée HiFuse, pour la classification d’images médicales. Cette approche permet de fusionner les avantages du Transformer et du CNN à travers des hiérarchies multi-échelles sans compromettre leurs capacités de modélisation respectives, améliorant ainsi la précision de classification sur divers types d’images médicales. Une hiérarchie parallèle de blocs de caractéristiques locales et globales est conçue afin d’extraire efficacement les caractéristiques locales et les représentations globales à différentes échelles sémantiques, tout en offrant une flexibilité pour modéliser à différentes échelles et une complexité computationnelle linéaire par rapport à la taille de l’image. En outre, un bloc de fusion hiérarchique adaptatif (HFF) est proposé pour exploiter de manière complète les caractéristiques obtenues à différents niveaux hiérarchiques. Ce bloc HFF intègre une attention spatiale, une attention sur les canaux, un MLP inversé résiduel et un chemin de raccourci, permettant une fusion adaptative des informations sémantiques entre les caractéristiques à différentes échelles de chaque branche. L’exactitude de notre modèle proposé sur le jeu de données ISIC2018 est supérieure de 7,6 % à celle du modèle de référence, de 21,5 % sur le jeu de données Covid-19, et de 10,4 % sur le jeu de données Kvasir. Comparé à d’autres modèles avancés, le modèle HiFuse obtient les meilleurs résultats. Le code source de notre travail est disponible sous licence open-source à l’adresse suivante : https://github.com/huoxiangzuo/HiFuse.