BioELECTRA: Vortrainierter biomedizinischer Text-Encoder unter Verwendung von Diskriminatoren

Neuere Fortschritte in PrätRAINIERUNGSSTRATEGIEN im Bereich der natürlichen Sprachverarbeitung (NLP) haben eine signifikante Verbesserung der Leistung von Modellen bei verschiedenen Textmining-Aufgaben gezeigt. Wir setzen die von ELECTRA vorgeschlagene PrätRAINIERUNGSMETHODE „Replaced Token Detection“ ein und prätRAINIEREN ein biomedizinisches Sprachmodell von Grund auf mithilfe biomedizinischer Texte und Vokabulare. Wir stellen BioELECTRA vor, ein domain-spezifisches Sprachencoder-Modell für den biomedizinischen Bereich, das ELECTRA für den biomedizinischen Kontext anpasst. Wir evaluieren unser Modell anhand der BLURB- und BLUE-Benchmark-Datenbanken im Bereich biomedizinischer NLP. BioELECTRA erreicht sowohl auf allen 13 Datensätzen des BLURB-Benchmarks als auch auf allen 4 klinischen Datensätzen des BLUE-Benchmarks bei sieben unterschiedlichen NLP-Aufgaben die bisher beste Leistung (SOTA). Auch bei klinischen Datensätzen zeigt BioELECTRA hervorragende Ergebnisse, wenn es auf PubMed- und PMC-Volltextartikeln prätRAINIERED wurde. BioELECTRA erreicht eine neue SOTA-Leistung von 86,34 % (Verbesserung um 1,39 Prozentpunkte) auf dem MedNLI-Datensatz und 64 % (Verbesserung um 2,98 Prozentpunkte) auf dem PubMedQA-Datensatz.