HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

Résumé

Le développement rapide des modèles linguistiques massifs multimodaux (MLLM), tels que GPT-4V, a permis des progrès significatifs. Toutefois, ces modèles peinent encore à atteindre un niveau élevé de compétence médicale multimodale, en raison des limites en quantité et en qualité des données textes-images médicales, dues à des préoccupations liées à la confidentialité des données et à des coûts d’annotation élevés. Bien que des approches pionnières aient utilisé de vastes paires image-texte médicales non identifiées issues de PubMed pour atténuer ces contraintes, elles demeurent insuffisantes en raison du bruit intrinsèque présent dans les données. Afin de surmonter ce défi, nous avons nettoyé et raffiné les paires image-texte médicales issues de PubMed, puis exploité les MLLM (GPT-4V) de manière « non masquée » pour supprimer le bruit et reformater les données, aboutissant à la création du jeu de données PubMedVision, comprenant 1,3 million d’échantillons de questions-réponses sur des images médicales (VQA). Nos évaluations montrent que : (1) PubMedVision peut considérablement améliorer les capacités multimodales médicales des MLLM actuels, avec des progrès notables sur des benchmarks tels que la piste « Health & Medicine » du MMMU ; (2) des vérifications manuelles effectuées par des experts médicaux ainsi que des résultats empiriques confirment la qualité supérieure de notre jeu de données par rapport aux autres méthodes de construction de données. En utilisant PubMedVision, nous avons entraîné un MLLM médical de 34 milliards de paramètres, HuatuoGPT-Vision, qui se distingue par ses performances supérieures dans les scénarios multimodaux médicaux parmi les MLLM open source.

Dépôts de code

freedomintelligence/huatuogpt-vision
Officiel
pytorch
Mentionné dans GitHub

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux | Articles de recherche | HyperAI