HyperAI
Back to Headlines

ETH und Stanford präsentieren MIRIAD: 5,8M Paare verbessern medizinische KI-Antworten und Halluzinationserkennung.

vor 2 Tagen

Forscher der ETH Zürich und Stanford präsentieren MIRIAD: Ein Datensatz mit 5,8 Millionen Paaren zur Verbesserung der Genauigkeit von LLMs im medizinischen Bereich Große Sprachmodelle (LLMs) sind darauf ausgerichtet, den Gesundheitssektor durch intelligente Entscheidungsunterstützung und flexibel einsetzbare Chat-Assistenten zu revolutionieren. Ein wesentlicher Herausforderung dabei ist jedoch ihre Tendenz, faktisch falsche medizinische Informationen zu generieren. Eine gängige Lösung hierfür ist RAG (Retrieval-Augmented Generation), bei dem externe medizinische Kenntnisse in kleinere Textabschnitte aufgeteilt werden, die LLMs während der Generierung abrufen und nutzen können. Obwohl vielversprechend, hängen aktuelle RAG-Methoden von unstrukturierten und oft rauschigen medizinischen Inhalten ab, die für LLMs schwer zu interpretieren sind. Es besteht ein klarer Bedarf an einer besseren Strukturierung und Darstellung medizinischer Kenntnisse, um die Zuverlässigkeit und Genauigkeit der Modelle zu erhöhen. Beschränkungen aktueller RAG-Ansätze in der medizinischen KI Obwohl LLMs bei allgemeinen Sprachaufgaben beeindruckende Leistungen zeigen, fallen sie häufig in Bereichen wie der Medizin hinterher, die aktuelle und präzise Kenntnisse erfordern. RAG bietet eine kosteneffektive Alternative zum teuren Fein tuning, indem es die Modelle in externen Literaturquellen verankert. Viele aktuelle RAG-Systeme basieren jedoch auf allgemeinen Text-Embeddings und standardisierten Vektordatenbanken, die nicht für medizinische Inhalte optimiert sind. Im Gegensatz zu allgemeinen Gebieten fehlen in der Medizin große, hochwertige Datensätze, die medizinische Fragen mit relevanten Antworten verbinden. Bestehende Datensätze wie PubMedQA oder MedQA sind entweder zu klein, zu strukturiert (z. B. Multiple-Choice) oder entbehren der offenen, realweltlichen Antworten, die für robuste medizinische Retrievalsyteme erforderlich sind. MIRIAD-Datensatz: Strukturierung von medizinischen QA-Paaren mit Peer-Review-Gründung Forscher von der ETH Zürich, Stanford, der Mayo Clinic und anderen Institutionen haben MIRIAD entwickelt, einen umfangreichen Datensatz mit über 5,8 Millionen hochwertigen medizinischen Anfrage-Antwort-Paaren. Jedes Paar wurde sorgfältig umformuliert und auf Peer-Review-Literatur gestützt, wobei ein halbautomatisierter Prozess mit LLMs, Filtern und Expertenrezensionen angewendet wurde. Im Gegensatz zu vorherigen unstrukturierten Datensätzen bietet MIRIAD strukturierte, abrufbare medizinische Kenntnisse, die die Genauigkeit von LLMs bei komplexen medizinischen QA-Aufgaben bis zu 6,7% verbessern und die Erkennung von Halluzinationen um 22,5% bis 37% erhöhen. Sie haben außerdem MIRIAD-Atlas vorgestellt, ein visuelles Werkzeug, das 56 medizinische Bereiche abdeckt und Benutzern ermöglicht, diese reichhaltige Ressource zu erkunden und zu interagieren, wodurch vertrauenswürdige KI in der Medizin gefördert wird. Datenpipeline: Filterung und Strukturierung medizinischer Literatur mit LLMs und Klassifizierern Um MIRIAD aufzubauen, filterten die Forscher 894.000 medizinische Artikel aus dem S2ORC-Korpus und zerlegten sie in saubere, satzbasierende Abschnitte, wobei sie übermäßig lange oder störende Inhalte ausschlossen. Mit strukturierten Prompts erzeugten sie über 10 Millionen Frage-Antwort-Paare, die später durch regelbasierte Filter auf 5,8 Millionen reduziert wurden. Ein benutzerdefinierter Klassifizierer, trainiert mit GPT-4-Etiketten, half, die Anzahl auf 4,4 Millionen hochwertige Paare zu verringern. Medizinische Experten validierten zudem eine Stichprobe für Genauigkeit, Relevanz und Gründung. Schließlich erstellten sie MIRIAD-Atlas, ein interaktives 2D-Diagramm des Datensatzes, das verwandten Inhalt nach Thema und Disziplin gruppieren kann. Leistungssteigerungen: Verbesserung der QA-Genauigkeit und Halluzinationserkennung durch MIRIAD Der MIRIAD-Datensatz führt zu erheblichen Leistungssteigerungen bei großen Sprachmodellen in medizinischen Aufgaben. Bei Verwendung in RAG erreichten die Modelle bis zu 6,7% höhere Genauigkeit im Vergleich zur Nutzung unstrukturierter Daten, selbst bei gleicher Menge an abgerufenem Inhalt. MIRIAD verbesserte auch die Fähigkeit der Modelle, medizinische Halluzinationen zu erkennen, wobei die F1-Werte von 22,5% bis 37% stiegen. Zudem führte das Training von Retriever-Modellen auf MIRIAD zu höherer Abrufqualität. Die Struktur des Datensatzes, die auf verifizierter Literatur basiert, ermöglicht präziseren und zuverlässigeren Zugang zu Informationen und unterstützt eine Vielzahl von nachgeschalteten medizinischen Anwendungen. MIRIAD-Atlas: Visuelle Exploration über 56 medizinische Bereiche Zusammenfassend ist MIRIAD ein großer, strukturierter Datensatz, der 5,8 Millionen medizinische Frage-Antwort-Paare enthält, die auf Peer-Review-Literatur basieren. Er unterstützt verschiedene medizinische KI-Anwendungen und umfasst ein interaktives Atlas für einfache Exploration. Durch automatische Filter, LLM-Bewertungen und Expertenrezensionen wurde sorgfältig auf Qualität geachtet. Anders als frühere unstrukturierte Korpora verbessert MIRIAD die Abrufgenauigkeit bei medizinischen Fragen und Antworten und kann Halluzinationen in Sprachmodellen identifizieren. Obwohl er noch nicht vollständig umfassend ist, legt er eine starke Grundlage für zukünftige Datensätze. Weitere Verbesserungen könnten zu genauerem, nutzerzentriertem Abruf und besserer Integration in klinische Tools und medizinische KI-Systeme führen. Industrie-Insider bewerten die Einführung von MIRIAD als einen bedeutenden Fortschritt in der Entwicklung vertrauenswürdiger medizinischer KI. Die ETH Zürich und Stanford sind führende Einrichtungen in der KI-Forschung und haben mit diesem Projekt wieder einmal ihre Kompetenz und Innovationskraft unter Beweis gestellt. Der Datensatz steht nun auf Hugging Face zur Verfügung, und das Team lädt dazu ein, das Paper sowie die GitHub-Seite zu erkunden.

Related Links