HyperAIHyperAI
il y a 17 jours

LViT : Langage et Vision Transformer pour la segmentation d'images médicales

Zihan Li, Yunxiang Li, Qingde Li, Puyang Wang, Dazhou Guo, Le Lu, Dakai Jin, You Zhang, Qingqi Hong
LViT : Langage et Vision Transformer pour la segmentation d'images médicales
Résumé

L’apprentissage profond est largement utilisé dans la segmentation d’images médicales et d’autres domaines. Toutefois, les performances des modèles actuels de segmentation d’images médicales sont limitées par le manque de données étiquetées de haute qualité, en raison du coût prohibitif de l’annotation des données. Pour atténuer cette contrainte, nous proposons un nouveau modèle de segmentation d’images médicales augmenté par le texte, appelé LViT (Language meets Vision Transformer). Dans notre modèle LViT, les annotations textuelles médicales sont intégrées afin de compenser les déficiences de qualité présentes dans les données d’image. En outre, les informations textuelles permettent de guider la génération d’étiquettes pseudo-étiquetées de meilleure qualité dans un cadre d’apprentissage semi-supervisé. Nous introduisons également un mécanisme d’itération exponentielle des pseudo-étiquettes (EPI), qui aide le module d’attention au niveau des pixels (PLAM) à préserver les caractéristiques locales des images dans un cadre semi-supervisé. Dans notre modèle, une perte LV (Language-Vision) est conçue pour superviser directement l’apprentissage des images non étiquetées à l’aide d’informations textuelles. Pour évaluer notre approche, nous avons construit trois jeux de données multimodaux pour la segmentation médicale (image + texte), comprenant des radiographies et des images de tomodensitométrie (CT). Les résultats expérimentaux montrent que le modèle LViT proposé obtient des performances supérieures, tant dans un cadre entièrement supervisé que semi-supervisé. Le code source et les jeux de données sont disponibles à l’adresse suivante : https://github.com/HUANGLIZI/LViT.