17日前

Transformerモデルを用いた最短依存パス特徴量とトリプレット情報による生物医学関係抽出の向上

{Fabio Rinaldi, Vani Kanjirangat}
要約

エンティティ関係抽出は、生命医療および臨床研究分野において重要な役割を果たしている。近年、Transformerアーキテクチャおよびその派生モデルに基づく事前学習モデルが、さまざまな自然言語処理タスクにおいて優れた性能を示している。これらのモデルの多くは、アーキテクチャの微小な変更、表現方式の工夫、および遠隔監督(distant supervision)を用いたデータ拡張によって構築されている。遠隔監督手法においては、主な課題の一つとしてノイズの多いサンプルを除去することにある。また、訓練サンプルが直接提供されておらず、与えられたデータセットから構築しなければならない場合にも同様の状況が生じる。BioCreative V Chemical Disease Relation(CDR)タスクは、mentionレベルの正解ラベルが明示的に提供されていないデータセットを提供しており、上記の状況を再現している。したがって、潜在的なエンティティ関係を表現できる抽象文や文書内の代表的な文を選び出すことが重要となる。既存の多くの手法は、全文を対象とするか、エンティティmentionを含むすべての文を扱うというアプローチを採用しているが、これは計算コストが高く、処理に時間がかかる問題がある。本研究では、特に生命医療分野における関係抽出に特化した新しいアプローチを提案する。具体的には、ノイズ情報を除去し、モデル学習に適した最も代表的なサンプルを選定するために、最短依存パス(Shortest Dependency Path: SDP)特徴を活用する。さらに、生命医療分野向けに最適化されたBERTの変種であるBioBERTを用いて、トリプレット(三つ組)情報をモデル学習に組み込む。本問題は、文とエンティティ-関係ペアを入力として、文対分類タスクとして定式化する。本手法は、CDRデータセットにおける文内関係(intra-sentential)および文間関係(inter-sentential)の両方に対して評価を行った。提案手法であるSDP特徴とトリプレット特徴を組み合わせたアプローチは、特に文間関係抽出タスクにおいて有望な結果を示した。本研究で使用したコードは、GitHub上で公開している。