HyperAIHyperAI
vor 17 Tagen

Evaluation der Leistung von Large Language Models auf der Biomedical Language Understanding and Reasoning Benchmark

{Christina Mack, Khaldoun Zine El Abidine, Jay Nanavati, Katharine Roth, Kathryn Rough, Rodrigo de Oliveira, Matthew Garber, Jude LaFleur, Francesco Ronzano, Hui Feng}
Evaluation der Leistung von Large Language Models auf der Biomedical Language Understanding and Reasoning Benchmark
Abstract

Hintergrund: Die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs), menschenähnlichen Text zu interpretieren und zu generieren, hat Spekulationen über deren Anwendung in der Medizin und klinischen Forschung ausgelöst. Es liegen jedoch bisher nur begrenzte Daten vor, die evidenzbasierte Entscheidungen zur Eignung für spezifische Anwendungsfälle unterstützen könnten.Methoden: Wir evaluierten und verglichen vier allgemeinzweckorientierte LLMs (GPT-4, GPT-3.5-turbo, Flan-T5-XXL und Zephyr-7B-Beta) sowie ein medizinisch spezifisches LLM (MedLLaMA-13B) anhand einer Reihe von 13 Datensätzen – bekannt als Biomedical Language Understanding and Reasoning Benchmark (BLURB) –, die sechs häufig benötigte Aufgaben im Bereich medizinischer natürlicher Sprachverarbeitung abdecken: Namengebende Entitätserkennung (Named Entity Recognition, NER); Relationsextraktion; PICO-Analyse (Population, Interventions, Comparators, Outcomes); Satzähnlichkeit; Dokumentklassifikation und Fragebeantwortung. Alle Modelle wurden ohne Modifikation bewertet. Die Modellleistung wurde anhand einer Vielzahl von Prompting-Strategien (formalisiert als systematisches, wiederverwendbares Prompting-Framework) bewertet und basierte auf den standardisierten, aufgabebezogenen Evaluationsmetriken, die von BLURB definiert wurden.Ergebnisse: In allen Aufgaben übertraf GPT-4 die anderen LLMs, gefolgt von Flan-T5-XXL und GPT-3.5-turbo, während Zephyr-7B-Beta und MedLLaMA-13B niedrigere Leistungen erzielten. Die am besten performanten Prompts für GPT-4 und Flan-T5-XXL erreichten eine bessere Leistung als die bisher veröffentlichten besten Ergebnisse für die PubMedQA-Aufgabe. Das domainspezifische Modell MedLLaMA-13B erzielte für die meisten Aufgaben niedrigere Scores, zeigte jedoch eine herausragende Leistung bei Fragebeantwortungsaufgaben. Wir beobachteten einen erheblichen Einfluss strategischer Überarbeitung des Prompts zur Beschreibung der Aufgabe sowie eine konsistente Verbesserung der Leistung, wenn Beispiele mit semantischer Ähnlichkeit zum Eingabetext im Prompt enthalten waren.Schlussfolgerung: Diese Ergebnisse liefern Hinweise auf das Potenzial von LLMs für Anwendungen in der Medizin und unterstreichen die Bedeutung einer robusten Evaluation, bevor LLMs für spezifische Anwendungsfälle eingesetzt werden. Die fortgesetzte Erforschung, wie diese sich entwickelnden Technologien für den Gesundheitssektor angepasst, mit menschlicher Expertise kombiniert und durch Qualitätskontrollmaßnahmen verbessert werden können, wird entscheidend sein, um verantwortungsvolle Innovationen mit LLMs im medizinischen Bereich zu ermöglichen.

Evaluation der Leistung von Large Language Models auf der Biomedical Language Understanding and Reasoning Benchmark | Neueste Forschungsarbeiten | HyperAI