Ensemble De Données Médicales VQA À Grande Échelle PubMedVision
Date
Taille
URL de publication
Catégories
* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.
PubMedVision est un ensemble de données médicales multimodales à grande échelle et de haute qualité créé en 2024 par une équipe de recherche du Shenzhen Big Data Research Institute, de l'Université chinoise de Hong Kong et du National Health Data Institute, contenant 1,3 million d'échantillons médicaux VQA. Les résultats pertinents de l'article sontHuatuoGPT-Vision : Vers une intégration à grande échelle des connaissances médicales visuelles dans les LLM multimodaux".
Cet ensemble de données utilise des méthodes sophistiquées de traitement de données pour sélectionner des images à caractère médical et des descriptions d'images informatives à partir d'articles de la revue médicale internationale PubMed, filtrant efficacement un grand nombre d'images non pertinentes sur le plan médical et de contenu non pertinent au contexte. Afin d'améliorer l'alignement des données graphiques et textuelles, l'équipe de recherche a utilisé le grand modèle visuel (GPT-4V) pour redécrire les images et construire des dialogues dans 10 scénarios, réécrivant les données graphiques et textuelles dans un format questions-réponses, améliorant ainsi l'apprentissage des connaissances visuelles médicales.