17日前

コンパクトな生物医療Transformerの有効性について

Omid Rohanian, Mohammadmahdi Nouriborji, Samaneh Kouchaki, David A. Clifton

要約

生体医療文書コーパス上で事前学習された言語モデル、例えばBioBERTは、近年、下流の生体医療タスクにおいて有望な成果を示している。一方で、埋め込みサイズ、隠れ次元、層数などの要因により、多くの既存の事前学習モデルはリソースを大量に消費し、計算負荷が非常に高いという課題を抱えている。自然言語処理（NLP）コミュニティでは、剪定（pruning）、量子化（quantisation）、知識蒸留（knowledge distillation）などの技術を用いて、これらのモデルを圧縮するための多数の戦略が開発されており、その結果、実用的により高速で小型化され、利用しやすいモデルが実現されている。本稿では、同様のアプローチに基づき、6種類の軽量型モデル、すなわちBioDistilBERT、BioTinyBERT、BioMobileBERT、DistilBioBERT、TinyBioBERT、CompactBioBERTを提案する。これらのモデルは、生体医療分野の教師モデル（teacher model）からの知識蒸留、あるいはPubmedデータセット上でマスク言語モデル（Masked Language Modelling; MLM）目的を用いた継続的学習（continual learning）によって得られている。我々は、すべてのモデルを3つの生体医療タスクにおいて評価し、BioBERT-v1.1と比較することで、より効率的かつ軽量でありながら、大規模モデルと同等の性能を発揮するモデルの構築を目的とした。本研究で開発したすべてのモデルは、Hugging Faceのプロフィール（https://huggingface.co/nlpie）にて公開され、実験に使用したコードはGitHub（https://github.com/nlpie-research/Compact-Biomedical-Transformers）で公開される予定である。