HyperAI

Ensemble De Données De Réponses Aux Questions De Texte Médical MedQA

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

L'ensemble de données MedQA est un ensemble de données de questions-réponses pour le domaine médical qui simule le style de l'examen de licence médicale des États-Unis (USMLE). Il a été publié par une équipe de recherche du MIT et de l'Université des sciences et technologies de Huazhong en 2020. Les résultats de l'article associé sont "De quelle maladie souffre ce patient ? Un ensemble de données de réponses aux questions ouvertes à grande échelle issues d'examens médicaux". L'ensemble de données est collecté à partir d'examens médicaux professionnels et couvre l'anglais, le chinois simplifié et le chinois traditionnel, contenant respectivement 12 723, 34 251 et 14 123 questions, visant à évaluer la compréhension et l'application des connaissances médicales par le modèle. .

La construction de l'ensemble de données MedQA est basée sur des examens de licence médicale professionnelle, garantissant la haute qualité et le professionnalisme des questions. En plus des données des questions, un corpus à grande échelle de manuels médicaux a été collecté et publié, à partir duquel le modèle de compréhension de lecture peut acquérir les connaissances nécessaires pour répondre aux questions. L'ensemble de données est divisé en un ensemble d'entraînement, un ensemble de développement et un ensemble de test, qui sont utilisés respectivement pour l'entraînement, la vérification et les tests du modèle.

Division des ensembles de données, statistiques sur la longueur des questions et des réponses
MedQA.torrent
Partage 2Téléchargement 0Terminés 128Téléchargements totaux 508
  • MedQA/
    • README.md
      1.75 KB
    • README.txt
      3.5 KB
      • data/
        • data_clean.zip
          125.64 MB