EffiSegNet: Gastrointestinale Polypen-Segmentation mittels eines vortrainierten EfficientNet-basierten Netzwerks mit einem vereinfachten Decoder

Diese Arbeit stellt EffiSegNet vor, einen neuartigen Segmentierungsansatz, der Transfer Learning mit einem vortrainierten Convolutional Neural Network (CNN)-Klassifikator als Backbone nutzt. Im Gegensatz zu traditionellen Architekturen mit symmetrischer U-Form vereinfacht EffiSegNet den Decoder und setzt eine vollständige Merkmalsfusion ein, um den Rechenaufwand und die Anzahl der Parameter zu minimieren. Wir haben unser Modell anhand der gastrointestinalen Polypen-Segmentierungsaufgabe auf dem öffentlich verfügbaren Kvasir-SEG-Datensatz evaluiert und erreichten state-of-the-art-Ergebnisse. Insbesondere erzielte die EffiSegNet-B4-Netzwerkvariante bei Verwendung eines vortrainierten Backbones – soweit uns bekannt – die höchsten bisher in der Literatur berichteten Werte für diesen Datensatz: einen F1-Score von 0,9552, einen mittleren Dice-Koeffizienten (mDice) von 0,9483, einen mittleren Intersection-over-Union-Wert (mIoU) von 0,9056, eine Genauigkeit (Precision) von 0,9679 und eine Rückfallrate (Recall) von 0,9429. Auch die Ausbildung von Grund auf zeigte gegenüber früheren Arbeiten herausragende Leistung mit einem F1-Score von 0,9286, einem mDice von 0,9207, einem mIoU von 0,8668, einer Precision von 0,9311 und einem Recall von 0,9262. Diese Ergebnisse unterstreichen die Bedeutung einer sorgfältig entworfenen Encoder-Architektur in Bildsegmentierungsnetzwerken sowie die Wirksamkeit von Transfer-Learning-Ansätzen.