Command Palette
Search for a command to run...
MedVista3D : Modélisation vision-langage pour la réduction des erreurs diagnostiques dans la détection, la compréhension et la rédaction des rapports des maladies à partir de scanners 3D
Yuheng Li Yenho Chen Yuxiang Lai Jike Zhong Vanessa Wildman Xiaofeng Yang

Résumé
Les erreurs diagnostiques radiologiques — telles que les erreurs de sous-lecture, la cécité à l’attention et les défaillances de communication — restent fréquentes en pratique clinique. Ces problèmes proviennent souvent de l’absence de détection d’anomalies localisées, d’un contexte global limité et de la variabilité du langage utilisé dans les rapports. Ces défis sont amplifiés dans l’imagerie 3D, où les cliniciens doivent examiner des centaines de coupes par examen. Pour y remédier, il est nécessaire de disposer de systèmes capables de détecter avec précision les anomalies localisées, de raisonner au niveau global du volume et de produire des rapports en langage naturel sémantiquement cohérents. Toutefois, les modèles existants de vision et langage 3D ne parviennent pas à satisfaire simultanément ces trois exigences, en manquant à la fois d’une compréhension locale-global nécessaire au raisonnement spatial et en peinant face à la variabilité et au bruit présents dans les rapports radiologiques non curatifs. Nous présentons MedVista3D, un cadre pré-entraînement vision-langage multi-échelle enrichi sémantiquement pour l’analyse d’images TDM 3D. Afin de permettre une détection conjointe des maladies et une interprétation holistique, MedVista3D réalise une alignement local et global entre images et textes, favorisant ainsi l’apprentissage de représentations fines dans le contexte complet du volume. Pour faire face à la variabilité des rapports, nous appliquons des réécritures par modèle de langage et introduisons une Banque de correspondance sémantique radiologique pour un alignement conscient des significations. MedVista3D atteint des performances de pointe dans des tâches de classification de maladies en mode zero-shot, de recherche de rapports et de réponse à des questions médicales visuelles, tout en se transférant efficacement vers la segmentation d’organes et la prédiction de pronostic. Le code source et les jeux de données seront rendus publics.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.