vor 17 Tagen

MedConceptsQA: Open-Source-Prüfstand für medizinische Konzepte und Fragen-Antworten

Ofir Ben Shoham, Nadav Rappoport

Abstract

Wir präsentieren MedConceptsQA, einen spezifisch auf medizinische Konzepte abgestimmten Open-Source-Benchmark für die Fragebeantwortung im medizinischen Bereich. Der Benchmark umfasst Fragen zu verschiedenen medizinischen Konzepten aus unterschiedlichen Vokabularien: Diagnosen, Behandlungsverfahren und Arzneimittel. Die Fragen sind in drei Schwierigkeitsstufen eingeteilt: einfach, mittel und schwierig. Wir haben den Benchmark anhand verschiedener Großer Sprachmodelle evaluiert. Unsere Ergebnisse zeigen, dass vortrainierte klinische Große Sprachmodelle auf diesem Benchmark Genauigkeiten erreichen, die nahe an zufälligem Raten liegen, obwohl sie auf medizinischen Daten vortrainiert wurden. GPT-4 erreicht hingegen eine absolute durchschnittliche Verbesserung von fast 27 % bis 37 % im Vergleich zu klinischen Großen Sprachmodellen (27 % bei Zero-Shot-Lernen und 37 % bei Few-Shot-Lernen). Unser Benchmark stellt eine wertvolle Ressource für die Bewertung des Verständnisses und der Schlussfolgerungsfähigkeit medizinischer Konzepte durch Große Sprachmodelle dar. Der Benchmark ist unter https://huggingface.co/datasets/ofir408/MedConceptsQA verfügbar.