Kleine Sprachmodelle erlernen verbesserte Schlussfolgerungsfähigkeiten aus medizinischen Lehrbüchern

Obwohl jüngste Fortschritte bei kommerziellen großen Sprachmodellen (Large Language Models, LM) vielversprechende Ergebnisse bei medizinischen Aufgaben gezeigt haben, wirft ihre geschlossene Quellcode-Struktur erhebliche Bedenken hinsichtlich Datenschutz und Sicherheit auf, was ihre breite Anwendung im medizinischen Bereich erheblich einschränkt. Trotz Bemühungen, Open-Source-Modelle zu entwickeln, führen deren begrenzte Parameteranzahl oft zu unzureichenden Fähigkeiten im mehrschrittigen Schlussfolgern, die für die Lösung komplexer medizinischer Probleme erforderlich sind. Um diesem Problem zu begegnen, stellen wir Meerkat vor – eine neue Familie medizinischer KI-Systeme mit 7 bis 70 Milliarden Parametern. Die Modelle wurden mit unserem neu entwickelten synthetischen Datensatz trainiert, der hochwertige Kette-des-Denkens (chain-of-thought)-Schlussfolgerungspfade aus 18 medizinischen Lehrbüchern sowie vielfältige Anweisungsfolge-Datensätze umfasst. Unsere Systeme erreichten beachtliche Genauigkeit bei sechs medizinischen Benchmark-Tests und übertrafen dabei die bisher besten Modelle wie MediTron und BioMistral sowie GPT-3.5 deutlich. Besonders hervorzuheben ist, dass Meerkat-7B erstmals ein Modell mit 7 Milliarden Parametern die Bestehensgrenze der United States Medical Licensing Examination (USMLE) überschritt, während Meerkat-70B im Durchschnitt um 1,3 % GPT-4 übertraf. Zudem stellte Meerkat-70B bei 21 von 38 komplexen klinischen Fällen korrekt die Diagnose, was die menschliche Leistung von 13,8 deutlich übertraf und GPT-4 mit 21,8 nahezu erreichte. Im Vergleich zu bestehenden kleinen Modellen boten unsere Systeme detailliertere, freiformulierte Antworten auf klinische Fragen und näherten sich damit dem Leistungslevel großer kommerzieller Modelle an. Dadurch wird die Leistungsunterschiede zu großen Sprachmodellen erheblich verringert und zeigt die Effektivität von Meerkat bei der Bewältigung komplexer medizinischer Herausforderungen.