BioMistral: Eine Sammlung offener, vortrainierter großer Sprachmodelle für medizinische Anwendungsbereiche

Große Sprachmodelle (LLMs) haben in den letzten Jahren eine bemerkenswerte Vielseitigkeit gezeigt und bieten großes Potenzial für Anwendungen in spezialisierten Bereichen wie Gesundheit und Medizin. Trotz der Verfügbarkeit verschiedener Open-Source-LLMs, die speziell für gesundheitsrelevante Kontexte angepasst sind, stellen die Anpassung allgemein verwendbarer LLMs an den medizinischen Bereich erhebliche Herausforderungen dar. In diesem Paper stellen wir BioMistral vor, ein Open-Source-LLM, das speziell für den biomedizinischen Bereich entwickelt wurde und auf Mistral als Grundmodell basiert und zusätzlich auf PubMed Central weiter vortrainiert wurde. Wir führen eine umfassende Evaluation von BioMistral auf einem Benchmark durch, der aus 10 etablierten medizinischen Frage-Antwort-Aufgaben (QA) auf Englisch besteht. Zudem untersuchen wir leichtgewichtige Modelle, die durch Quantisierung und Modellverschmelzung (model merging) erzielt wurden. Unsere Ergebnisse zeigen, dass BioMistral eine überlegene Leistung im Vergleich zu bestehenden Open-Source-medizinischen Modellen erzielt und gleichzeitig wettbewerbsfähig gegenüber proprietären Gegenstücken ist. Schließlich adressieren wir die begrenzte Verfügbarkeit von Daten außerhalb der englischen Sprache und bewerten die multilinguale Generalisierung medizinischer LLMs, indem wir diesen Benchmark automatisch in sieben weitere Sprachen übersetzen und evaluierten. Dies stellt die erste großskalige multilinguale Evaluation von LLMs im medizinischen Bereich dar. Die verwendeten Datensätze, multilingualen Evaluationsbenchmarks, Skripte sowie alle Modelle, die im Rahmen unserer Experimente entstanden sind, werden öffentlich und kostenlos bereitgestellt.