コンパクトな生物医療Transformerの有効性について

生体医療文書コーパス上で事前学習された言語モデル、例えばBioBERTは、近年、下流の生体医療タスクにおいて有望な成果を示している。一方で、埋め込みサイズ、隠れ次元、層数などの要因により、多くの既存の事前学習モデルはリソースを大量に消費し、計算負荷が非常に高いという課題を抱えている。自然言語処理(NLP)コミュニティでは、剪定(pruning)、量子化(quantisation)、知識蒸留(knowledge distillation)などの技術を用いて、これらのモデルを圧縮するための多数の戦略が開発されており、その結果、実用的により高速で小型化され、利用しやすいモデルが実現されている。本稿では、同様のアプローチに基づき、6種類の軽量型モデル、すなわちBioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT、CompactBioBERTを提案する。これらのモデルは、生体医療分野の教師モデル(teacher model)からの知識蒸留、あるいはPubmedデータセット上でマスク言語モデル(Masked Language Modelling; MLM)目的を用いた継続的学習(continual learning)によって得られている。我々は、すべてのモデルを3つの生体医療タスクにおいて評価し、BioBERT-v1.1と比較することで、より効率的かつ軽量でありながら、大規模モデルと同等の性能を発揮するモデルの構築を目的とした。本研究で開発したすべてのモデルは、Hugging Faceのプロフィール(https://huggingface.co/nlpie)にて公開され、実験に使用したコードはGitHub(https://github.com/nlpie-research/Compact-Biomedical-Transformers)で公開される予定である。