6ヶ月前

概要

言語モデル（LM）の事前学習は、固有表現抽出（NER）を含む多数の自然言語処理（NLP）の下流タスクにおいて一貫した性能向上をもたらしている。本論文では、Transformerベースの固有表現抽出（T-NER）を紹介する。T-NERは、NERタスク向けのLM微調整（fine-tuning）を実行するためのPythonライブラリであり、実用性に加え、NERタスク上で微調整されたLMのドメイン間および言語間一般化能力の研究・検証を容易にする機能を備えている。また、ユーザーが任意のテキストに対してモデルの予測をインタラクティブに得られるWebアプリも提供しており、非専門のプログラマーによる定性的なモデル評価を支援する。本研究では、9つの公開NERデータセットを統一されたフォーマットに統合し、データセット間でのドメインおよび言語間性能を評価することで、このライブラリの潜在的価値を示した。初期実験の結果から、各データセットにおけるインドメイン性能は一般的に競争力を持つことが確認された。一方で、大規模な事前学習済みLMを用いても、ドメイン間一般化は依然として課題であり、ドメイン特有の特徴を学習する能力は、複数のデータセットを統合して微調整した場合にのみ発揮されることが明らかになった。今後の研究を促進するため、本研究で得られたすべてのLMチェックポイントをHugging Faceモデルハブを通じて公開する。

ソースPDF コードを表示