Command Palette
Search for a command to run...
HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

Résumé
Le développement rapide des modèles linguistiques massifs multimodaux (MLLM), tels que GPT-4V, a permis des progrès significatifs. Toutefois, ces modèles peinent encore à atteindre un niveau élevé de compétence médicale multimodale, en raison des limites en quantité et en qualité des données textes-images médicales, dues à des préoccupations liées à la confidentialité des données et à des coûts d’annotation élevés. Bien que des approches pionnières aient utilisé de vastes paires image-texte médicales non identifiées issues de PubMed pour atténuer ces contraintes, elles demeurent insuffisantes en raison du bruit intrinsèque présent dans les données. Afin de surmonter ce défi, nous avons nettoyé et raffiné les paires image-texte médicales issues de PubMed, puis exploité les MLLM (GPT-4V) de manière « non masquée » pour supprimer le bruit et reformater les données, aboutissant à la création du jeu de données PubMedVision, comprenant 1,3 million d’échantillons de questions-réponses sur des images médicales (VQA). Nos évaluations montrent que : (1) PubMedVision peut considérablement améliorer les capacités multimodales médicales des MLLM actuels, avec des progrès notables sur des benchmarks tels que la piste « Health & Medicine » du MMMU ; (2) des vérifications manuelles effectuées par des experts médicaux ainsi que des résultats empiriques confirment la qualité supérieure de notre jeu de données par rapport aux autres méthodes de construction de données. En utilisant PubMedVision, nous avons entraîné un MLLM médical de 34 milliards de paramètres, HuatuoGPT-Vision, qui se distingue par ses performances supérieures dans les scénarios multimodaux médicaux parmi les MLLM open source.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.