Hard Sample Aware Noise Robust Learning für die Histopathologie-Bildklassifikation

Die auf Deep Learning basierende Klassifizierung von Histopathologie-Bildern ist eine zentrale Technik, die Ärzten bei der Verbesserung der Genauigkeit und Geschwindigkeit der Krebsdiagnose unterstützt. Allerdings sind fehlerhafte (noisy) Labels im komplexen Prozess der manuellen Annotation oft unvermeidbar und können somit die Modelltrainingsprozesse irreleiten. In dieser Arbeit stellen wir eine neuartige, hartes Beispiel (hard sample) bewusste und geräuschrobuste Lernmethode für die Klassifizierung von Histopathologie-Bildern vor. Um informative, anspruchsvolle (hard) Beispiele von schädlichen, verrauschten Beispielen zu unterscheiden, entwickeln wir ein Easy/Hard/Noisy (EHN)-Detektionsmodell auf Basis der Trainingshistorie der einzelnen Beispiele. Anschließend integrieren wir das EHN-Modell in eine Self-Training-Architektur, um die Rauschrate schrittweise durch progressive Label-Korrektur zu reduzieren. Auf Basis des nunmehr nahezu sauberen Datensatzes schlagen wir zudem eine Noise-Suppression- und Hard-Enhancement-(NSHE)-Strategie vor, um ein geräuschrobustes Modell zu trainieren. Im Vergleich zu vorherigen Ansätzen kann unsere Methode mehr saubere Beispiele bewahren und direkt auf reale, verrauschte Datensätze angewendet werden, ohne dass ein sauberer Teilset erforderlich ist. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode sowohl auf synthetischen als auch auf realen, verrauschten Datensätzen die derzeit besten Ansätze übertrifft. Der Quellcode und die Daten sind unter https://github.com/bupt-ai-cz/HSA-NRL/ verfügbar.