CBLUE: Eine Bewertungs基准 für das Verständnis von chinesischen biomedizinischen Sprachmodellen 请注意,"基准"在德语中通常翻译为"Benchmark",因此更准确的翻译应该是: CBLUE: Eine Bewertungsbenchmark für das Verständnis von chinesischen biomedizinischen Sprachmodellen

Künstliche Intelligenz (KI) und die jüngsten Fortschritte im Bereich der biomedizinischen Sprachverarbeitung verändern allmählich die medizinische Praxis. Mit der Entwicklung von Benchmarks für die biomedizinische Sprachverarbeitung werden KI-Anwendungen im medizinischen Bereich zunehmend eingesetzt. Dennoch sind die meisten Benchmarks auf Englisch begrenzt, was es schwierig macht, viele der Erfolge in Englisch für andere Sprachen zu replizieren. Um die Forschung in diese Richtung zu fördern, sammeln wir realweltliche biomedizinische Daten und präsentieren den ersten chinesischen Benchmark für die biomedizinische Sprachverarbeitung (CBLUE): eine Sammlung von natürlichsprachlichen Verständnisaufgaben, darunter Named Entity Recognition (NER), Informationsextraktion, klinische Diagnosennormalisierung, Einzelsatz-/Satzpaar-Klassifikation sowie eine zugehörige Online-Plattform zur Modellbewertung, -vergleich und -analyse. Um die Bewertung dieser Aufgaben zu etablieren, berichten wir empirische Ergebnisse mit den momentan 11 vortrainierten chinesischen Modellen. Die experimentellen Ergebnisse zeigen, dass selbst die besten neuronalen Modelle weitaus schlechter als das menschliche Leistungsniveau abschneiden. Unser Benchmark ist unter \url{https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414&lang=en-us} veröffentlicht.