Fein- bis Grob-orientierte Segmentierung von Covid-19 mittels Vision-Sprache-Ausrichtung

Die Segmentierung von COVID-19-Läsionen kann Ärzten bei einer präziseren Diagnose und Therapie von COVID-19 unterstützen. Aufgrund des Mangels an detaillierten Informationen und hochwertigen Annotationen in den verfügbaren COVID-19-Datensätzen existieren jedoch nur wenige relevante Studien. Um dieses Problem zu lösen, schlagen wir C2FVL vor – einen Coarse-to-Fine-Segmentierungsrahmen basierend auf Vision-Language-Alignment, der Textinformationen, die die Anzahl der Läsionen sowie deren spezifische räumliche Lage enthalten, mit bildgebenden Informationen fusioniert. Die Einbeziehung von Textinformationen ermöglicht es dem Netzwerk, auf anspruchsvollen Datensätzen signifikant bessere Vorhersageergebnisse zu erzielen. Wir führen umfangreiche Experimente auf zwei COVID-19-Datensätzen durch, die Röntgenaufnahmen der Brust und CT-Bilder umfassen, und die Ergebnisse zeigen, dass unsere vorgeschlagene Methode andere state-of-the-art-Segmentierungsverfahren übertrifft.