DentalGPT : Incitation du raisonnement complexe multimodal en odontologie
DentalGPT : Incitation du raisonnement complexe multimodal en odontologie

Résumé
L’interprétation fiable des données multimodales en odontologie est essentielle pour la santé buccale automatisée, mais les modèles de langage à grande échelle multimodaux (MLLM) actuels peinent à capturer les détails visuels dentaires fins et manquent de capacités de raisonnement suffisantes pour un diagnostic précis. Pour remédier à ces limites, nous proposons DentalGPT, un MLLM spécialisé en odontologie développé grâce à une injection de connaissances domaines de haute qualité et à un apprentissage par renforcement. Plus précisément, nous avons construit le plus grand ensemble de données annotées multimodales en odontologie à ce jour en regroupant plus de 120 000 images dentaires accompagnées de descriptions détaillées mettant en évidence des caractéristiques visuelles pertinentes pour le diagnostic, ce qui en fait l’ensemble de données multimodales le plus vaste jamais rassemblé dans le domaine dentaire. L’entraînement sur cet ensemble de données améliore significativement la compréhension visuelle des conditions dentaires par le MLLM, tandis que l’étape ultérieure d’apprentissage par renforcement renforce davantage sa capacité au raisonnement complexe multimodal. Des évaluations approfondies sur des benchmarks intra-oraux et panoramiques, ainsi que sur des sous-ensembles dentaires de benchmarks de VQA médicale, montrent que DentalGPT atteint des performances supérieures dans les tâches de classification des maladies et de VQA dentaire, surpassant de nombreux MLLM d’état de l’art malgré un nombre de paramètres limité à 7 milliards. Ces résultats démontrent qu’un ensemble de données dentaires de haute qualité combiné à une adaptation en étapes constitue une voie efficace pour concevoir des MLLM capables et spécialisés dans le domaine dentaire.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.