BioMedGPT: Offener multimodaler generativer vortrainierter Transformer für die Biomedizin

Grundmodell (Foundation Models, FMs) haben in vielen Bereichen eine bemerkenswerte Leistung bei einer Vielzahl von Downstream-Aufgaben gezeigt. Dennoch stoßen allgemein einsetzbare FMs oft auf Herausforderungen, wenn sie auf domain-spezifische Probleme treffen, da sie aufgrund begrenzten Zugriffs auf proprietäre Trainingsdaten in einem bestimmten Bereich eingeschränkt sind. In der Biomedizin existieren verschiedene biologische Modalitäten wie Moleküle, Proteine und Zellen, die durch die „Sprache des Lebens“ kodiert sind und erhebliche Modality-Gaps gegenüber der menschlichen natürlichen Sprache aufweisen. In diesem Paper stellen wir BioMedGPT vor – einen offenen multimodalen generativen vortrainierten Transformer (GPT) für die Biomedizin –, der die Lücke zwischen der Sprache des Lebens und der menschlichen natürlichen Sprache schließt. BioMedGPT ermöglicht es Benutzern, über freitextbasierte Eingaben einfach „zu kommunizieren“ mit unterschiedlichen biologischen Modalitäten, was bisher einzigartig ist. BioMedGPT aligniert verschiedene biologische Modalitäten mit natürlicher Sprache mithilfe eines großen generativen Sprachmodells, namens BioMedGPT-LM. Wir veröffentlichen BioMedGPT-10B, das die Merkmalsräume von Molekülen, Proteinen und natürlicher Sprache durch Kodierung und Alignment vereinheitlicht. Durch Fine-Tuning erreicht BioMedGPT-10B eine Leistung, die entweder die von Menschen oder deutlich größeren allgemeinen Grundmodelle übertrifft oder mit ihnen vergleichbar ist, insbesondere bei der biomedizinischen Fragebeantwortung (QA). Zudem zeigt es vielversprechende Ergebnisse bei den Aufgaben Molekül-QA und Protein-QA, was die Entdeckung neuer Arzneimittel und therapeutischer Ziele erheblich beschleunigen könnte. Darüber hinaus ist BioMedGPT-LM-7B das erste große generative Sprachmodell auf Basis von Llama2 im biomedizinischen Bereich und daher kommerziell nutzbar. Beide Modelle, BioMedGPT-10B und BioMedGPT-LM-7B, werden der Forschungsgemeinschaft offen zur Verfügung gestellt. Zudem veröffentlichen wir die sorgfältig kuratierten Datensätze für die Alignment mehrerer Modalitäten, nämlich PubChemQA und UniProtQA. Alle Modelle, Codes und Datensätze sind unter \url{https://github.com/PharMolix/OpenBioMed} zugänglich.