BioBART: Vortrainieren und Bewertung eines biomedizinischen generativen Sprachmodells

Vortrainierte Sprachmodelle haben als zentrale Bausteine für die Verarbeitung natürlicher Sprache eine entscheidende Rolle gespielt. In jüngster Zeit hat sich gezeigt, dass die Domänen-spezifische Vortrainingstechnik verschiedene auf spezifische Domänen abgestimmte nachgelagerte Aufgaben verbessert. Im biomedizinischen Bereich sind Aufgaben der natürlichen Sprachgenerierung (NLG) von besonderer Bedeutung, werden jedoch bisher kaum untersucht. Durch die Behandlung von Aufgaben der natürlichen Sprachverstehens (NLU) als NLG- Aufgaben konnte im allgemeinen Bereich zufriedenstellende Leistung durch eingeschränkte Sprachgenerierung oder Sprachprompting erzielt werden. Wir betonen das Fehlen domänen-spezifischer generativer Sprachmodelle und die unstrukturierte Natur der generativen nachgelagerten Benchmarks im biomedizinischen Bereich, was die Entwicklung der Forschungsgemeinschaft behindert. In dieser Arbeit stellen wir das generative Sprachmodell BioBART vor, das BART an den biomedizinischen Bereich angepasst hat. Wir sammeln verschiedene biomedizinische Aufgaben der Sprachgenerierung, darunter Dialoge, Zusammenfassung, Entitätsverknüpfung und Namensentitäts-Erkennung. BioBART, das auf PubMed-Abstracts vortrainiert wurde, zeigt gegenüber BART eine verbesserte Leistung und etabliert starke Benchmarks auf mehreren Aufgaben. Zudem führen wir Ablationsstudien zu den Vortrainingsschritten für BioBART durch und stellen fest, dass die Permutation von Sätzen negative Auswirkungen auf die nachgelagerten Aufgaben hat.