Transfer Learning im Bereich der Bio-medizinischen Natürlichen Sprachverarbeitung: Eine Bewertung von BERT und ELMo anhand von zehn Benchmark-Datensätzen

Inspired by the success of the General Language Understanding Evaluation (GLUE) Benchmark, stellen wir den Biomedical Language Understanding Evaluation (BLUE) Benchmark vor, um die Forschung zur Entwicklung von prätrainierten Sprachrepräsentationen im Bereich der Biomedizin zu fördern. Der Benchmark besteht aus fünf Aufgaben mit zehn Datensätzen, die sowohl biomedizinische als auch klinische Texte mit unterschiedlichen Datensatzgrößen und Schwierigkeitsgraden abdecken. Wir evaluieren zudem mehrere Baseline-Modelle auf Basis von BERT und ELMo und stellen fest, dass das auf PubMed-Zusammenfassungen und MIMIC-III-Klinikaufzeichnungen prätrainierte BERT-Modell die besten Ergebnisse erzielt. Die Datensätze, prätrainierten Modelle und Codes sind öffentlich zugänglich unter https://github.com/ncbi-nlp/BLUE_Benchmark.