MEDITRON-70B: Skalierung der medizinischen Vorabausbildung für große Sprachmodelle

Große Sprachmodelle (GSM) können den Zugang zu medizinischem Wissen potenziell demokratisieren. Obwohl viele Anstrengungen unternommen wurden, um die medizinischen Kenntnisse und Schließfolgerungsfähigkeiten von GSM zu nutzen und zu verbessern, sind die resultierenden Modelle entweder geschlossen (z.B. PaLM, GPT-4) oder begrenzt in ihrer Größe (<= 13 Mrd. Parameter), was ihre Fähigkeiten einschränkt. In dieser Arbeit verbessern wir den Zugang zu groß angelegten medizinischen GSM durch die Veröffentlichung von MEDITRON: einer Suite offener Sprachmodelle mit 7 Mrd. und 70 Mrd. Parametern, die auf den medizinischen Bereich abgestimmt sind. MEDITRON basiert auf Llama-2 (durch unsere Anpassung des verteilten Trainers Megatron-LM von Nvidia) und erweitert das Vortrainieren anhand eines umfassend zusammengestellten medizinischen Korpus, der aus selektierten PubMed-Artikeln, -Zusammenfassungen und international anerkannten medizinischen Leitlinien besteht. Bewertungen anhand von vier wichtigen medizinischen Benchmarks zeigen erhebliche Leistungsverbesserungen im Vergleich zu mehreren Stand-of-the-Art-Baselines sowohl vor als auch nach der taskspezifischen Feinabstimmung. Insgesamt erreicht MEDITRON eine absolute Leistungssteigerung von 6 % gegenüber dem besten öffentlichen Baseline-Modell in seiner Parameterklasse und 3 % gegenüber dem stärksten Baseline-Modell, das wir aus Llama-2 feinabgestimmt haben. Im Vergleich zu geschlossenen GSM übertrifft MEDITRON-70B sowohl GPT-3.5 als auch Med-PaLM und liegt innerhalb von 5 % von GPT-4 und 10 % von Med-PaLM-2 (Med-PaLM-2). Wir veröffentlichen unseren Code zur Kuration des medizinischen Vortrainings-Korpus sowie die Gewichte des MEDITRON-Modells, um die Entwicklung offener, leistungsfähigerer medizinischer GSM voranzutreiben.