Ensemble De Données d'évaluation Multimodale Médicale PubMedVision
Date
Size
Paper URL
License
Apache 2.0
PubMedVision est un ensemble de données d'évaluation des capacités médicales multimodales, publié en 2024 par l'Institut de recherche sur le Big Data de Shenzhen, l'Université chinoise de Hong Kong (Shenzhen) et l'Institut national du Big Data médical (Shenzhen). Les résultats de l'étude sont les suivants :HuatuoGPT-Vision : Vers une intégration à grande échelle des connaissances médicales visuelles dans les LLM multimodaux", qui vise à fournir des ressources de test standardisées pour les modèles de langage multimodaux de grande taille (MLLM) dans les tâches de compréhension de texte et de vision médicale pour tester leurs performances de fusion des connaissances visuelles et de raisonnement dans le domaine médical.
Cet ensemble de données contient environ 1,3 million d'exemples de questions-réponses visuelles médicales (QVV), dont 647 031 exemples de QVV alignés et 647 031 exemples de QVV de réglage fin basés sur des instructions. Les données sont constituées de 914 960 images médicales soigneusement sélectionnées et de leur contexte (titres et citations), couvrant diverses modalités d'imagerie médicale et régions anatomiques. Chaque exemple est composé d'une image et d'un texte explicatif tiré d'un article médical. Des modèles multimodaux de langage étendu (tels que GPT-4V) sont utilisés pour générer la description de l'image, la question et la réponse correspondantes.

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.