HyperAIHyperAI
vor 17 Tagen

HiFuse: Hierarchische mehrskalige Merkmalsfusion-Netzwerk für die medizinische Bildklassifikation

Xiangzuo Huo, Gang Sun, Shengwei Tian, Yan Wang, Long Yu, Jun Long, Wendong Zhang, Aolun Li
HiFuse: Hierarchische mehrskalige Merkmalsfusion-Netzwerk für die medizinische Bildklassifikation
Abstract

Die Klassifikation medizinischer Bilder hat unter dem Einfluss des Faltungsneuralen Netzes (CNN) rasante Fortschritte erzielt. Aufgrund der festen Größe des Empfindlichkeitsfelds des Faltungskernels ist es jedoch schwierig, globale Merkmale medizinischer Bilder zu erfassen. Obwohl der auf Selbst-Attention basierende Transformer langreichweitige Abhängigkeiten modellieren kann, weist er eine hohe Rechenkomplexität auf und fehlt es an lokaler induktiver Bias. Zahlreiche Forschungsarbeiten haben gezeigt, dass sowohl globale als auch lokale Merkmale für die Bildklassifikation entscheidend sind. Medizinische Bilder weisen jedoch häufig verrauschte, zerstreute Merkmale, starke innerhalb-Klasse-Variationen sowie hohe Ähnlichkeiten zwischen Klassen auf. In dieser Arbeit wird ein dreigeteilter hierarchischer Multi-Skalen-Merkmalsfusion-Netzwerkansatz vorgestellt, der als HiFuse bezeichnet wird, um die Klassifikation medizinischer Bilder neu zu gestalten. Das vorgeschlagene Modell kann die Vorteile von Transformer und CNN auf mehreren Skalen und Hierarchien effizient kombinieren, ohne die jeweiligen Modellierungsstärken zu beeinträchtigen, wodurch die Klassifikationsgenauigkeit verschiedener medizinischer Bilder verbessert wird. Es wird eine parallele Hierarchie aus lokalen und globalen Merkmalsblöcken entworfen, um lokale Merkmale und globale Repräsentationen auf unterschiedlichen semantischen Skalen effizient zu extrahieren, wobei die Flexibilität zur Modellierung auf verschiedenen Skalen sowie eine lineare Rechenkomplexität in Abhängigkeit von der Bildgröße gewährleistet sind. Zudem wird ein adaptiver hierarchischer Merkmalsfusionsblock (HFF-Block) entwickelt, um die Merkmale verschiedener Hierarchieebenen umfassend auszunutzen. Der HFF-Block integriert räumliche Aufmerksamkeit, kanalbasierte Aufmerksamkeit, einen residuellen invertierten MLP sowie Verbindungswege (Shortcut), um semantische Informationen zwischen Merkmalen verschiedener Skalen jeder Verzweigung adaptiv zu fusionieren. Die Genauigkeit des vorgeschlagenen Modells liegt auf dem ISIC2018-Datensatz um 7,6 Prozentpunkte über der Baseline, auf dem Covid-19-Datensatz um 21,5 Prozentpunkte und auf dem Kvasir-Datensatz um 10,4 Prozentpunkte. Im Vergleich zu anderen fortschrittlichen Modellen erzielt das HiFuse-Modell die besten Ergebnisse. Der Quellcode ist Open Source und steht unter https://github.com/huoxiangzuo/HiFuse zur Verfügung.