HyperAI
il y a 9 jours

Construction d'un MLLM ophtalmique pour la collaboration diagnostic-positionnelle par le raisonnement en chaîne cognitive clinique

Xinyao Liu, Diping Song
Construction d'un MLLM ophtalmique pour la collaboration diagnostic-positionnelle par le raisonnement en chaîne cognitive clinique
Résumé

Les modèles de langage à grande échelle multimodaux (MLLMs) montrent un grand potentiel dans le domaine du diagnostic médical. Cependant, ils font face à des défis critiques dans des domaines spécialisés tels que l'ophtalmologie, notamment la fragmentation de la granularité des annotations et les incohérences dans la logique du raisonnement clinique, ce qui entrave une compréhension précise entre les modalités. Cet article présente FundusExpert, un MLLM spécifique à l'ophtalmologie intégrant des capacités de raisonnement localisation-diagnostic, ainsi que FundusGen, un ensemble de données construit grâce au système intelligent Fundus-Engine. Fundus-Engine automatisé la localisation et utilise une expansion sémantique basée sur les MLLMs pour intégrer, au sein d'une seule image de fond de l'œil, la classification globale des maladies, la détection d'objets locaux et l'analyse des caractéristiques fines. En outre, en construisant une chaîne de raisonnement alignée sur le contexte clinique, il guide le modèle à générer des chemins de raisonnement interprétables. FundusExpert, ajusté avec des données d'instruction provenant de FundusGen, atteint les meilleures performances dans les tâches de réponse aux questions en ophtalmologie, dépassant l'accuracy moyenne de MedRegA 40B de 26,6 %. Il se distingue également dans les tâches de génération de rapports en zéro-shot, avec une cohérence clinique de 77,0 %, ce qui est nettement supérieur à la performance de GPT-4o (47,6 %). En outre, nous mettons en évidence une loi d'échelle entre la qualité des données et la capacité du modèle (), démontrant que les annotations d'alignement cognitif dans FundusGen améliorent l'efficacité d'utilisation des données. En intégrant la localisation au niveau des régions avec les chaînes de raisonnement diagnostique, notre travail développe un MLLM évolutif et aligné sur le plan clinique, et explore une voie vers la réduction du fossé entre les langages visuel et linguistique dans les MLLMs spécifiques. Notre projet est accessible à l'adresse suivante : ce lien URL.