Transferierbare visuelle Wörter: Ausnutzung der Semantik anatomischer Muster für selbstüberwachtes Lernen

Diese Arbeit stellt ein neues Konzept namens „übertragbare visuelle Wörter“ (TransVW) vor, das darauf abzielt, die Annotationseffizienz beim Deep Learning in der medizinischen Bildanalyse zu verbessern. Medizinische Bilder – die sich auf bestimmte Körperteile für definierte klinische Zwecke konzentrieren – weisen zwischen Patienten eine hohe anatomische Ähnlichkeit auf und erzeugen dabei komplexe anatomische Muster, die reichhaltige Semantik im Hinblick auf die menschliche Anatomie enthalten und sich natürlicherweise als visuelle Wörter interpretieren lassen. Wir zeigen, dass diese visuellen Wörter aufgrund ihrer anatomischen Konsistenz automatisch durch Selbstentdeckung gewonnen werden können und dass die so selbstentdeckten visuellen Wörter als starke, jedoch kostenfreie Supervisionszeichen für tiefe Modelle dienen können, um semantisch reichhaltige, generische Bildrepräsentationen über Selbstsupervision (Selbstklassifikation und Selbstrekonstruktion) zu erlernen. Unsere umfangreichen Experimente belegen die Annotationseffizienz von TransVW, indem sie höhere Leistungsfähigkeit und schnellere Konvergenz bei reduziertem Annotationaufwand in mehreren Anwendungen demonstrieren. TransVW weist mehrere wichtige Vorteile auf: (1) TransVW ist ein vollständig autodidaktisches Verfahren, das die Semantik visueller Wörter für das selbstüberwachte Lernen nutzt und keine Expertenannotation erfordert; (2) die Lernstrategie für visuelle Wörter ist eine add-on-Strategie, die bestehende selbstüberwachte Methoden ergänzt und deren Leistung steigert; und (3) die gelernten Bildrepräsentationen sind semantisch angereicherte Modelle, die sich als robuster und übertragbarer erwiesen haben und durch Transferlernen die Annotationsanforderungen für eine Vielzahl von Anwendungen erheblich reduzieren. Unser Code, vortrainierte Modelle sowie konservierte visuelle Wörter sind unter https://github.com/JLiangLab/TransVW verfügbar.