HyperAI

Ensemble De Données Médicales Réelles Chinoises JMED

Aide au téléchargement

* Cet ensemble de données prend en charge l'utilisation en ligne.Cliquez ici pour sauter.

L'ensemble de données JMED est un nouvel ensemble de données basé sur la distribution de données médicales du monde réel. Il a été construit par l'équipe Citrus en 2025. Les résultats de l'article associé sont "Citrus : Exploiter les voies cognitives expertes dans un modèle de langage médical pour une aide à la décision médicale avancée".

L'ensemble de données est dérivé de conversations anonymes entre médecins et patients dans l'hôpital Internet JD Health et est filtré pour conserver les consultations qui suivent un flux de travail de diagnostic standardisé. La version initiale contient 1 000 dossiers cliniques de haute qualité couvrant tous les groupes d'âge (0 à 90 ans) et plusieurs spécialités. Chaque question comprend 21 options de réponse, dont une option « Aucune des réponses ci-dessus ». Cette conception augmente considérablement la complexité et la difficulté de distinguer les bonnes réponses, offrant ainsi un cadre d’évaluation plus rigoureux. Différent des ensembles de données existants, JMED simule étroitement des données cliniques réelles tout en facilitant une formation efficace du modèle. Bien que basé sur des données de consultation réelles, il ne provient pas directement de données médicales réelles, de sorte que l'équipe de recherche peut intégrer les éléments clés nécessaires à la formation du modèle.

Comparé aux ensembles de données d'assurance qualité médicale existants, JMED présente trois avantages principaux : tout d'abord, il reflète plus précisément l'ambiguïté des descriptions des symptômes des patients et la nature dynamique du diagnostic clinique dans des scénarios réels. Deuxièmement, les options de réponse élargies nécessitent des capacités de raisonnement améliorées pour identifier la bonne réponse parmi de nombreux distracteurs. De plus, en utilisant la grande quantité de données de consultation des principaux hôpitaux de JD, nous pouvons générer en continu des données conformes aux caractéristiques réelles de répartition des patients.

Organigramme de construction d'un ensemble de données