臨床用Longformerおよび臨床用BigBird:長時間臨床シーケンス向けTransformer

BERTをはじめとするTransformerベースのモデルは、自然言語処理(NLP)のさまざまなタスクにおいて顕著な性能向上をもたらした。臨床知識を豊富に含むモデルであるClinicalBERTも、臨床領域における固有表現抽出(Named Entity Recognition)および自然言語推論(Natural Language Inference)タスクにおいて、最先端の結果を達成している。しかし、これらのTransformerモデルの核心的な制約の一つとして、完全な自己注意機構(full self-attention mechanism)による膨大なメモリ消費が挙げられる。これを克服するために、スパース注意機構(sparse attention mechanism)を導入した長文シーケンス向けTransformerモデル、たとえばLongformerやBigBirdが提案された。これにより、メモリ使用量をシーケンス長の2乗オーダーから線形オーダーに削減することができた。これらのモデルは、入力シーケンスの最大長を512から4096に拡張し、長期依存関係のモデル化能力が向上したことで、多様なタスクにおいて最適な性能を発揮している。このような長文シーケンスTransformerモデルの成功を受けて、本研究では大規模な臨床コーパスから事前学習された、ドメイン特化型の言語モデル2種、すなわちClinical-LongformerおよびClinical-BigBirdを提案する。これらのモデルは、10のベースラインタスク(固有表現抽出、質問応答、ドキュメント分類など)を用いて評価された。その結果、Clinical-LongformerおよびClinical-BigBirdは、すべての下流タスクにおいて、ClinicalBERTおよび他の短文シーケンスTransformerモデルを一貫してかつ有意に上回ることが確認された。本研究で開発したソースコードは[https://github.com/luoyuanlab/Clinical-Longformer]にて公開しており、事前学習済みモデルは[Hugging Face]のアドレス[https://huggingface.co/yikuan8/Clinical-Longformer]から無料でダウンロード可能である。