MMedBench Benchmark-Datensatz Für Mehrsprachige Medizinische Eignungstests
Datum
Größe
Veröffentlichungs-URL
Lizenz
CC BY-NC-SA 3.0
* Dieser Datensatz unterstützt die Online-Nutzung.Klicken Sie hier, um zu springen.
MMedBench ist ein umfassender mehrsprachiger Benchmark-Datensatz für medizinische Eignungstests, der 2024 vom Smart Healthcare Team der School of Artificial Intelligence der Shanghai Jiao Tong University entwickelt wurde.Auf dem Weg zum Aufbau eines mehrsprachigen Sprachmodells für die Medizin". Ziel ist es, die Entwicklung mehrsprachiger Modelle im medizinischen Bereich zu evaluieren und dabei 6 Sprachen und 21 medizinische Teilbereiche abzudecken. Alle Fragen in MMedBench werden direkt aus Fragendatenbanken für medizinische Untersuchungen in verschiedenen Ländern abgeleitet, wodurch die Genauigkeit und Zuverlässigkeit der Bewertung sichergestellt und ein diagnostischer Verständnisfehler vermieden wird, der durch Unterschiede in den Richtlinien für die medizinische Praxis in verschiedenen Ländern verursacht wird.
Der Bewertungsmaßstab beinhaltet zwei Hauptbewertungsdimensionen: Auswahlgenauigkeit und Erklärungsrationalität. Während des Bewertungsprozesses muss das Modell nicht nur die richtige Antwort auswählen, sondern auch eine vernünftige Erklärung liefern, wodurch die Fähigkeit des Modells, komplexe medizinische Informationen zu verstehen und zu interpretieren, weiter getestet wird. Die Datenstatistik von MMedBench zeigt die grundlegenden numerischen Statistiken des Trainingssatzes und des Testsatzes sowie die Verteilung der Stichproben zu verschiedenen Themen.
Das Forschungsteam bewertete gängige medizinische Sprachmodelle anhand des MMedBench-Benchmarks, einschließlich dreier Teststrategien: Zero-Shot, PEFT-Feinabstimmung und vollständige Modell-Feinabstimmung. Die Testergebnisse zeigen, dass das vorgeschlagene Modell bestehende Open-Source-Modelle desselben Niveaus in zwei Schlüsseldimensionen übertrifft: Auswahlgenauigkeit und Erklärungsrationalität und mit GPT-4 vergleichbar ist. Darüber hinaus führte das Forschungsteam auch eine manuelle Bewertung durch, bei der das vorgeschlagene Modell von den menschlichen Benutzern am meisten bevorzugt wurde.
Die Einführung von MMedBench fördert nicht nur die mehrsprachige groß angelegte Modellforschung im medizinischen Bereich, sondern bietet auch neue Werkzeuge für die klinische Praxis und zeigt insbesondere großes Potenzial bei der Überwindung von Sprachbarrieren und der Globalisierung medizinischer Ressourcen. Alle Daten und Codes wurden als Open Source freigegeben, was die Zusammenarbeit und den Technologieaustausch innerhalb der globalen Forschungsgemeinschaft weiter fördert.
