Dual-Stream Multiple Instance Learning Netzwerk für die Klassifikation von Whole Slide Images mit selbstüberwachtem kontrastivem Lernen

Wir behandeln das anspruchsvolle Problem der Klassifikation von Whole Slide Images (WSI). WSIs weisen eine sehr hohe Auflösung auf und verfügen typischerweise über keine lokalisierten Annotationen. Die Klassifikation von WSIs kann als ein Multiple Instance Learning (MIL)-Problem formuliert werden, wenn lediglich slide-level Labels zur Verfügung stehen. Wir stellen eine auf MIL basierende Methode zur Klassifikation von WSIs und Tumorerkennung vor, die keine lokalisierten Annotationen erfordert. Unser Ansatz besteht aus drei Hauptkomponenten. Erstens führen wir einen neuartigen MIL-Aggregator ein, der die Beziehungen zwischen den Instanzen in einer Dual-Stream-Architektur mit lernbaren Abstandsmessungen modelliert. Zweitens, da WSIs große oder unbalancierte Bags erzeugen können, die das Training von MIL-Modellen erschweren, schlagen wir vor, selbstüberwachtes kontrastives Lernen zur Extraktion guter Repräsentationen für MIL einzusetzen und gleichzeitig das Problem hoher Speicherkosten bei großen Bags zu mildern. Drittens implementieren wir eine pyramidenförmige Fusionsmechanik für multiskalige WSI-Features, wodurch die Genauigkeit von Klassifikation und Lokalisierung weiter verbessert wird. Unser Modell wird an zwei repräsentativen WSI-Datensätzen evaluiert. Die Klassifikationsgenauigkeit unseres Modells liegt gegenüber vollständig überwachten Methoden nahezu auf dem gleichen Niveau, mit einer Genauigkeitslücke von weniger als 2 % über die Datensätze hinweg. Unsere Ergebnisse übertreffen zudem alle vorherigen MIL-basierten Ansätze. Zusätzliche Benchmark-Ergebnisse auf Standard-MIL-Datensätzen belegen zudem die überlegene Leistung unseres MIL-Aggregators bei allgemeinen MIL-Problemen. GitHub-Repository: https://github.com/binli123/dsmil-wsi