17日前
BioMegatron:より大きな生物医学ドメイン言語モデル
Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani

要約
近年、バイオ医療分野に特化した言語モデルが多数登場しており、一般ドメインのテキストコーパス(Wikipediaや書籍など)で事前学習されたモデルと比較して、バイオ医療分野のベンチマークタスクにおいて、バイオ医療テキストで事前学習されたモデルが優れた性能を示すことが明らかになっている。しかし、多くの研究では、各分野固有の言語アプリケーションに影響を与える要因について深く分析されていない。さらに、分野特化型モデルにおけるモデルサイズの影響に関する研究はほとんど行われていない。本研究では、サブワード語彙セット、モデルサイズ、事前学習コーパス、ドメイン転移といった複数の要因が分野言語アプリケーションの性能に与える影響について、実証的に検証・評価した。大規模なドメインコーパス上で学習されたより大きな「BioMegatron」モデルを用いることで、ベンチマーク上での一貫した性能向上を実現し、分野特化型言語モデルの応用に関する理解を深める成果を挙げた。また、命名エンティティ認識、関係抽出、質問応答といった標準的なバイオ医療NLPベンチマークにおいて、従来の最先端(SOTA)モデルを顕著に上回る性能を達成した。モデルのチェックポイントおよびコードは、[https://ngc.nvidia.com] および [https://github.com/NVIDIA/NeMo] で公開されている。