Langschwänzige Klassifikation von Thoraxerkrankungen an Brust-Röntgenaufnahmen: Eine neue Benchmark-Studie

Bildgebende Untersuchungen wie die Thorax-Röntgenaufnahme liefern eine kleine Menge häufiger Befunde und eine viel größere Anzahl seltener Befunde. Während ein geschulter Radiologe die visuelle Darstellung seltener Erkrankungen durch die Analyse nur weniger repräsentativer Beispiele erlernen kann, ist die Schulung eines Maschinenlernmodells auf solche „long-tailed“-Verteilungen erheblich schwieriger, da herkömmliche Methoden leicht zu den häufigsten Klassen hin verzerren. In diesem Paper präsentieren wir eine umfassende Benchmark-Studie zum Long-Tailed-Lernproblem im spezifischen Bereich thorakaler Erkrankungen anhand von Thorax-Röntgenaufnahmen. Wir konzentrieren uns auf das Lernen aus natürlicherweise verteilten Thorax-Röntgen-Daten und optimieren die Klassifikationsgenauigkeit nicht nur für die häufigen „Head“-Klassen, sondern auch für die seltenen, jedoch kritischen „Tail“-Klassen. Um dies zu erreichen, führen wir eine anspruchsvolle neue Benchmark für langschwänzige Thorax-Röntgenaufnahmen ein, um die Forschung zu Methoden für das Long-Tailed-Lernen in der medizinischen Bildklassifikation zu fördern. Die Benchmark besteht aus zwei Thorax-Röntgen-Datensätzen für die 19- und 20-Wege-Klassifikation thorakaler Erkrankungen, die Klassen mit bis zu 53.000 und bis zu lediglich 7 annotierten Trainingsbildern enthalten. Wir evaluieren sowohl herkömmliche als auch state-of-the-art-Methoden für Long-Tailed-Lernen auf dieser neuen Benchmark und analysieren, welche Aspekte dieser Ansätze besonders förderlich für die Long-Tailed-Klassifikation medizinischer Bilder sind, um zukünftige Algorithmenentwürfe zu unterstützen. Die Datensätze, trainierten Modelle und der Quellcode sind unter https://github.com/VITA-Group/LongTailCXR verfügbar.