Domain-spezifisches Sprachmodell-Pretraining für die biomedizinische Natürliche Sprachverarbeitung

Das Vortrainieren großer neuronaler Sprachmodelle wie BERT hat zu beeindruckenden Fortschritten bei vielen Aufgaben der natürlichen Sprachverarbeitung (NLP) geführt. Dennoch konzentrieren sich die meisten Vortrainierungsanstrengungen auf allgemeine Domänenkorpora, wie Nachrichten und das Web. Ein weit verbreiteter Ansatz geht davon aus, dass auch domänenspezifisches Vortrainieren von allgemeinen Sprachmodellen profitiert. In dieser Arbeit stellen wir diese Annahme in Frage, indem wir zeigen, dass für Bereiche mit reichlich nicht gekennzeichnetem Text, wie z.B. die Biomedizin, das Vortrainieren von Sprachmodellen vom Grundmodell aus erhebliche Verbesserungen gegenüber dem kontinuierlichen Vortrainieren von allgemeinen Domänen-Sprachmodellen bringt. Um diese Untersuchung zu erleichtern, haben wir einen umfassenden Benchmarksatz für die biomedizinische NLP aus öffentlich verfügbaren Datensätzen zusammengestellt. Unsere Experimente zeigen, dass domänenspezifisches Vortrainieren eine solide Grundlage für eine Vielzahl von biomedizinischen NLP-Aufgaben bildet und zu neuen Standesbestimmungen überall führt. Darüber hinaus haben wir bei einer gründlichen Bewertung der Modellierungsoptionen sowohl für das Vortrainieren als auch für das aufgabenspezifische Feintuning festgestellt, dass einige gängige Praktiken bei BERT-Modellen unnötig sind, wie zum Beispiel die Verwendung komplexer Tagging-Schemata in der benannten Entitätserkennung (NER). Um die Forschung im Bereich der biomedizinischen NLP zu beschleunigen, haben wir unsere standesbestimmten vortrainierten und aufgabenspezifischen Modelle für die Gemeinschaft freigegeben und eine Rangliste mit unserem BLURB-Benchmark (Abkürzung für Biomedical Language Understanding & Reasoning Benchmark) unter https://aka.ms/BLURB erstellt.