HyperAI

Ensemble De Données Médicales Multimodales À Grande Échelle MedTrinity-25M

Date

il y a 8 mois

Organisation

Université des sciences et technologies de Huazhong
Université de Stanford

URL de publication

github.com

Aide au téléchargement

Cet ensemble de données est un ensemble de données médicales multimodales à grande échelle lancé conjointement par des équipes de recherche de l'Université des sciences et technologies de Huazhong, de l'Université de Californie à Santa Cruz, de l'Université Harvard et de l'Université de Stanford en 2024. Les résultats pertinents de l'article sont "MedTrinity-25M : un ensemble de données multimodales à grande échelle avec des annotations multigranulaires pour la médecine".

MedTrinity-25M contient plus de 25 millions d'images médicales couvrant 10 modalités d'imagerie et annotées avec plus de 65 maladies. Cet ensemble de données contient non seulement de riches annotations globales et locales, mais intègre également des annotations d'informations à plusieurs niveaux dans plusieurs modalités (telles que CT, IRM, rayons X, etc.). Ces annotations incluent le type de maladie ou de lésion, la modalité d’imagerie, les descriptions spécifiques à la région et les relations entre les organes. En prétraitant et en intégrant des données provenant de plus de 90 sources différentes, l’équipe de recherche a développé un pipeline unique de construction de données automatisé pour générer des annotations visuelles et textuelles à plusieurs niveaux. Cette méthode brise la limitation de la dépendance traditionnelle à l’image-texte appariée et réalise la génération automatique d’annotations. Cet ensemble de données fournira un excellent support pour les tâches multimodales telles que le traitement d'images médicales, la génération de rapports, la classification et la segmentation, tout en favorisant la pré-formation de modèles d'intelligence artificielle à base médicale.