LViT: Sprache trifft auf Vision Transformer in der medizinischen Bildsegmentierung

Deep Learning wird weitgehend in der medizinischen Bildsegmentierung und verwandten Bereichen eingesetzt. Allerdings ist die Leistung bestehender Modelle zur medizinischen Bildsegmentierung durch die Schwierigkeit begrenzt, ausreichend qualitativ hochwertige annotierte Daten zu erhalten, was auf die enormen Kosten der Datenannotation zurückzuführen ist. Um diese Einschränkung zu überwinden, stellen wir ein neues, textbasiertes medizinisches Bildsegmentierungsmodell namens LViT (Language meets Vision Transformer) vor. In unserem LViT-Modell wird medizinische Textannotation integriert, um die Mängel in der Bildqualität auszugleichen. Zudem kann die Textinformation dazu dienen, in einem semi-supervised-Lernansatz hochwertigere Pseudolabels zu generieren. Außerdem entwickeln wir einen Exponential Pseudo-Label-Iteration Mechanismus (EPI), um dem Pixel-Level Attention Modul (PLAM) zu helfen, lokale Bildmerkmale im semi-supervised-LViT-Setting zu bewahren. In unserem Modell wird eine LV-(Language-Vision)-Verlustfunktion entworfen, die die Ausbildung von ungelabelten Bildern direkt anhand von Textinformationen supervisiert. Zur Evaluation erstellen wir drei multimodale medizinische Segmentierungsdatensätze (Bild + Text), die Röntgen- und CT-Bilder enthalten. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes LViT-Modell sowohl in vollständig überwachten als auch in semi-supervised Szenarien eine überlegene Segmentierungsgenauigkeit erreicht. Der Quellcode und die Datensätze sind unter https://github.com/HUANGLIZI/LViT verfügbar.