il y a 5 mois

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

Résumé

Le développement rapide des modèles linguistiques massifs multimodaux (MLLM), tels que GPT-4V, a permis des progrès significatifs. Toutefois, ces modèles peinent encore à atteindre un niveau élevé de compétence médicale multimodale, en raison des limites en quantité et en qualité des données textes-images médicales, dues à des préoccupations liées à la confidentialité des données et à des coûts d’annotation élevés. Bien que des approches pionnières aient utilisé de vastes paires image-texte médicales non identifiées issues de PubMed pour atténuer ces contraintes, elles demeurent insuffisantes en raison du bruit intrinsèque présent dans les données. Afin de surmonter ce défi, nous avons nettoyé et raffiné les paires image-texte médicales issues de PubMed, puis exploité les MLLM (GPT-4V) de manière « non masquée » pour supprimer le bruit et reformater les données, aboutissant à la création du jeu de données PubMedVision, comprenant 1,3 million d’échantillons de questions-réponses sur des images médicales (VQA). Nos évaluations montrent que : (1) PubMedVision peut considérablement améliorer les capacités multimodales médicales des MLLM actuels, avec des progrès notables sur des benchmarks tels que la piste « Health & Medicine » du MMMU ; (2) des vérifications manuelles effectuées par des experts médicaux ainsi que des résultats empiriques confirment la qualité supérieure de notre jeu de données par rapport aux autres méthodes de construction de données. En utilisant PubMedVision, nous avons entraîné un MLLM médical de 34 milliards de paramètres, HuatuoGPT-Vision, qui se distingue par ses performances supérieures dans les scénarios multimodaux médicaux parmi les MLLM open source.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Réponse À Des Questions Visuelles

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Réponse À Des Questions Visuelles

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux | Articles | HyperAI

Command Palette

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HuatuoGPT-Vision, vers l'intégration à grande échelle de connaissances visuelles médicales dans les modèles linguistiques multimodaux

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu

Junying Chen Ruyi Ouyang Anningzhe Gao Shunian Chen Guiming Hardy Chen Xidong Wang Ruifei Zhang Zhenyang Cai Ke Ji Guangjun Yu