11日前
BioBART:バイオメディカル生成言語モデルの事前学習と評価
Hongyi Yuan, Zheng Yuan, Ruyi Gan, Jiaxing Zhang, Yutao Xie, Sheng Yu

要約
事前学習された言語モデルは、自然言語処理分野における重要な基盤として機能している。近年、ドメイン特化した事前学習が、さまざまなドメイン固有の下流タスクに有益であることが示されている。特に医療・生命科学分野では、自然言語生成(NLG)タスクが極めて重要である一方で、研究はまだ十分に進んでいない。一般ドメインにおいては、制約付き言語生成や言語プロンプティングを用いて自然言語理解(NLU)タスクをNLGの枠組みで扱うことで、良好な性能が達成されている。本研究では、医療分野における生成型言語モデルの不足と、下流タスクの体系的な生成型ベンチマークの欠如が、研究コミュニティの発展を阻害している点に注目する。本研究では、BARTを医療分野に適応させた生成型言語モデル「BioBART」を提案する。また、対話生成、要約、エンティティリンク、固有表現認識といった多様な医療分野における言語生成タスクを統合・収集した。PubMedの要約文を用いた事前学習により、BioBARTはBARTに比べて性能が向上し、複数のタスクで強力なベースラインを構築した。さらに、BioBARTの事前学習タスクに関するアブレーション研究を行った結果、文の順序入れ替え(sentence permutation)が下流タスクの性能に悪影響を与えることが明らかになった。