HyperAI

JMED Chinesischer Echter Medizinischer Datendaten-Datensatz

Download-Hilfe

* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.

Der JMED-Datensatz ist ein neuer Datensatz, der auf der Verteilung realer medizinischer Daten basiert. Es wurde vom Citrus-Team im Jahr 2025 erstellt. Die zugehörigen Ergebnisse des Papiers lauten:Citrus: Nutzung kognitiver Pfade von Experten in einem medizinischen Sprachmodell zur erweiterten medizinischen Entscheidungsunterstützung".

Der Datensatz stammt aus anonymen Arzt-Patienten-Gesprächen im JD Health Internet Hospital und wird gefiltert, um Konsultationen beizubehalten, die einem standardisierten Diagnoseablauf folgen. Die Erstveröffentlichung enthält 1.000 hochwertige klinische Aufzeichnungen, die alle Altersgruppen (0–90 Jahre) und mehrere Fachgebiete abdecken. Jede Frage umfasst 21 Antwortoptionen, darunter eine „Keine der oben genannten“-Option. Durch dieses Design wird die Komplexität und Schwierigkeit, die richtigen Antworten zu erkennen, erheblich erhöht, wodurch ein strengerer Bewertungsrahmen bereitgestellt wird. Im Gegensatz zu vorhandenen Datensätzen simuliert JMED reale klinische Daten genau und ermöglicht gleichzeitig ein effizientes Modelltraining. Obwohl es auf echten Konsultationsdaten basiert, stammt es nicht direkt aus tatsächlichen medizinischen Daten, sodass das Forschungsteam die für das Modelltraining erforderlichen Schlüsselelemente integrieren kann.

Im Vergleich zu vorhandenen medizinischen QA-Datensätzen bietet JMED drei Hauptvorteile: Erstens spiegelt es die Mehrdeutigkeit der Symptombeschreibungen der Patienten und die dynamische Natur der klinischen Diagnose in realen Szenarien genauer wider. Zweitens erfordern die erweiterten Antwortmöglichkeiten verbesserte Denkfähigkeiten, um die richtige Antwort unter zahlreichen Ablenkungen zu erkennen. Darüber hinaus können wir durch die Nutzung der großen Menge an Konsultationsdaten aus den größten Krankenhäusern von JD kontinuierlich Daten generieren, die den tatsächlichen Merkmalen der Patientenverteilung entsprechen.

Flussdiagramm zur Datensatzerstellung