HyperAIHyperAI
vor 17 Tagen

SciDeBERTa: Lernen von DeBERTa für Wissenschafts- und Technikdokumente sowie Feinabstimmung von Informationsextraktionsaufgaben

{Eunhui Kim, Yuna Jeong}
Abstract

Sprachmodelle auf Basis von Deep Learning (LMs) haben im April und Juli 2019 jeweils die Goldstandard-Leistung (Menschen-Referenz) der SQuAD 1.1- und GLUE-Benchmarks übertroffen. Bis 2022 haben die fünf führenden LMs auf der SuperGLUE-Benchmark-Liste den Goldstandard bereits überschritten. Selbst Personen mit umfassendem Allgemeinwissen stoßen bei Problemen aus Spezialgebieten wie Medizin oder künstlicher Intelligenz an ihre Grenzen. Genau wie Menschen durch Bachelor-, Master- und Doktorstudien spezialisiertes Wissen erwerben, benötigen auch LMs einen Prozess, um die Fähigkeit zur Verarbeitung fachspezifischen Wissens zu entwickeln. Daher schlägt diese Studie SciDeBERTa und SciDeBERTa(CS) als vortrainiertes Sprachmodell (PLM) vor, das speziell für den Bereich Wissenschaft und Technik optimiert ist. Wir prätrainieren das DeBERTa-Modell, das ursprünglich mit einem allgemeinen Korpus trainiert wurde, zusätzlich mit einem Korpus aus dem Bereich Wissenschaft und Technik. Experimente bestätigten, dass SciDeBERTa(CS), das kontinuierlich im Bereich Informatik prätrainiert wurde, in der Aufgabe der Entitätsnamenerkennung im SciERC-Datensatz jeweils 3,53 % und 2,17 % höhere Genauigkeit erzielte als SciBERT und S2ORC-SciBERT, zwei andere auf Wissenschaft und Technik spezialisierte PLMs. In der JRE-Aufgabe des SciERC-Datensatzes erreichte SciDeBERTa(CS) eine um 6,7 % höhere Leistung im Vergleich zur Basis-Implementierung SCIIE. Im Genia-Datensatz erzielte SciDeBERTa die beste Gesamtleistung im Vergleich zu S2ORC-SciBERT, SciBERT, BERT, DeBERTa und SciDeBERTa(CS). Zudem wurden während des Fine-Tunings Techniken zur Neukonfiguration der Gewichtsinitialisierung sowie optimierte Optimierer nach Adam untersucht, um die Sprachverstehensfähigkeit der PLMs zu evaluieren.

SciDeBERTa: Lernen von DeBERTa für Wissenschafts- und Technikdokumente sowie Feinabstimmung von Informationsextraktionsaufgaben | Neueste Forschungsarbeiten | HyperAI