HyperAIHyperAI

Command Palette

Search for a command to run...

MediSwift: Effiziente spärliche vortrainierte biomedizinische Sprachmodelle

Vithursan Thangarasa Mahmoud Salem Shreyas Saxena Kevin Leong Joel Hestness Sean Lie

Zusammenfassung

Große Sprachmodelle (LLMs) werden typischerweise auf allgemeinen Quelldaten für verschiedene Domänen trainiert. In jüngster Zeit hat jedoch eine Zunahme an domänenspezifischen LLMs gezeigt, dass diese in domänenspezifischen Aufgaben (z. B. Biomedizin) die Leistung allgemeiner Modelle übertrifft. Obwohl die domänenspezifische Vortrainierung die Effizienz steigert und kleinere Modelle ermöglicht, bleiben die Rechenkosten für das Training dieser LLMs hoch und stellen erhebliche Budgetierungsprobleme dar. Wir stellen MediSwift vor, eine Reihe von biomedizinischen LMs, die eine spärliche Vortrainierung auf domänenspezifischen biomedizinischen Textdaten nutzen. Durch die Einführung einer Gewichtssparsamkeit von bis zu 75 % während des Vortrainings erreicht MediSwift eine Reduktion der Training-FLOPs um das 2- bis 2,5-fache. Besonders hervorzuheben ist, dass die gesamte spärliche Vortrainierung auf dem Cerebras CS-2-System durchgeführt wurde, das speziell für die Ausnutzung der Beschleunigungsvorteile durch unstrukturierte Gewichtssparsamkeit ausgelegt ist und somit die Effizienz der MediSwift-Modelle erheblich steigert. Durch anschließende dichte Feinabstimmung und strategische Soft-Prompting übertrifft MediSwift die Leistung bestehender LLMs bis zu 7 B Parameter bei biomedizinischen Aufgaben und setzt neue Benchmark-Werte hinsichtlich Effizienz-Genauigkeit, beispielsweise bei Aufgaben wie PubMedQA. Unsere Ergebnisse zeigen, dass die spärliche Vortrainierung in Kombination mit dichter Feinabstimmung und Soft-Prompting eine effektive Methode darstellt, um hochleistungsfähige, recheneffiziente Modelle in spezialisierten Domänen zu entwickeln.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MediSwift: Effiziente spärliche vortrainierte biomedizinische Sprachmodelle | Paper | HyperAI