
要約
科学分野での大規模な注釈付きデータの取得は困難かつ高コストである。本研究では、この問題を解決するために、BERT(Devlinら、2018)を基にした事前学習言語モデルSciBERTを公開する。SciBERTは、大規模な多領域の科学論文コーパスを用いた無教師学習による事前学習を活用し、下流の科学NLPタスクにおける性能向上を目指している。我々は、シーケンスタグ付け、文分類、依存関係解析などの一連のタスクで評価を行い、これらのタスクには様々な科学分野からのデータセットを使用した。結果として、統計的に有意な改善がBERTに対して示され、いくつかのタスクにおいて新たな最先端の成果を達成した。コードと事前学習済みモデルはhttps://github.com/allenai/scibert/で入手可能である。