MediSwift: Effiziente spärliche vortrainierte biomedizinische Sprachmodelle

Große Sprachmodelle (LLMs) werden typischerweise auf allgemeinen Quelldaten für verschiedene Domänen trainiert. In jüngster Zeit hat jedoch eine Zunahme an domänenspezifischen LLMs gezeigt, dass diese in domänenspezifischen Aufgaben (z. B. Biomedizin) die Leistung allgemeiner Modelle übertrifft. Obwohl die domänenspezifische Vortrainierung die Effizienz steigert und kleinere Modelle ermöglicht, bleiben die Rechenkosten für das Training dieser LLMs hoch und stellen erhebliche Budgetierungsprobleme dar. Wir stellen MediSwift vor, eine Reihe von biomedizinischen LMs, die eine spärliche Vortrainierung auf domänenspezifischen biomedizinischen Textdaten nutzen. Durch die Einführung einer Gewichtssparsamkeit von bis zu 75 % während des Vortrainings erreicht MediSwift eine Reduktion der Training-FLOPs um das 2- bis 2,5-fache. Besonders hervorzuheben ist, dass die gesamte spärliche Vortrainierung auf dem Cerebras CS-2-System durchgeführt wurde, das speziell für die Ausnutzung der Beschleunigungsvorteile durch unstrukturierte Gewichtssparsamkeit ausgelegt ist und somit die Effizienz der MediSwift-Modelle erheblich steigert. Durch anschließende dichte Feinabstimmung und strategische Soft-Prompting übertrifft MediSwift die Leistung bestehender LLMs bis zu 7 B Parameter bei biomedizinischen Aufgaben und setzt neue Benchmark-Werte hinsichtlich Effizienz-Genauigkeit, beispielsweise bei Aufgaben wie PubMedQA. Unsere Ergebnisse zeigen, dass die spärliche Vortrainierung in Kombination mit dichter Feinabstimmung und Soft-Prompting eine effektive Methode darstellt, um hochleistungsfähige, recheneffiziente Modelle in spezialisierten Domänen zu entwickeln.