17日前
知識を用いた生物医療分野における事前学習済み言語モデルの改善
Zheng Yuan, Yijia Liu, Chuanqi Tan, Songfang Huang, Fei Huang

要約
事前学習された言語モデルは、自然言語処理の多くのタスクにおいて成功を収めている。多くの研究では、言語モデルに知識を統合する手法が探求されている。特に医療分野においては、専門家が数十年にわたり大規模な知識ベースの構築に取り組んできた。例えば、統合医療用語システム(Unified Medical Language System, UMLS)には、数百万ものエンティティとその同義語が含まれており、エンティティ間の数百の関係が定義されている。このような知識を活用することで、固有表現抽出(Named Entity Recognition)や関係抽出(Relation Extraction)などの下流タスクに有益な効果が期待できる。本研究では、UMLS知識ベースからの知識を明示的に活用する医療分野向けの事前学習言語モデル「KeBioLM」を提案する。具体的には、PubMedの要約からエンティティを抽出し、それらをUMLSにリンクする。その後、テキストのみを対象とするエンコーディング層によりエンティティ表現を学習し、テキストとエンティティの融合エンコーディングによりエンティティ表現を統合する、知識認識型の言語モデルを訓練する。さらに、エンティティ検出とエンティティリンクという2つの訓練目的を追加している。BLURBベンチマークにおける固有表現抽出および関係抽出に関する実験結果から、本手法の有効性が示された。また、収集したプロービングデータセットを用いた分析により、本モデルが医療知識をより優れた能力でモデル化できていることが明らかになった。