
要約
バイオメディカル関係文は通常、複数の文で表現され、遺伝子、疾患、化学物質、変異などの多くの概念を含んでいます。バイオメディカル文献から情報を自動的に抽出するために、既存のバイオメディカルテキストマイニング手法では、問題を複数文にまたがるn項関係抽出タスクとして定式化し、n個のエンティティ間の関係を検出します。これらの手法では、グラフニューラルネットワーク(GNN)と長短期記憶(LSTM)またはアテンションメカニズムを使用しています。最近、トランスフォーマーは多くの自然言語処理(NLP)タスクにおいてLSTMを上回ることが示されています。本研究では、トランスフォーマーからの双方向エンコーダ表現とグラフトランスフォーマー(BERT-GT)を組み合わせた新しいアーキテクチャを提案します。これは、BERTアーキテクチャに近傍アテンションメカニズムを統合することによって実現されます。元のトランスフォーマーアーキテクチャとは異なり、全文を用いて現在のトークンのアテンションを計算するのではなく、当手法における近傍アテンションメカニズムは近傍トークンのみを利用してそのアテンションを計算します。これにより、各トークンはノイズが少ない状態で近傍情報に注目することができます。特に長いテキストの場合、例えば複数文間や要約レベルでの関係抽出タスクにおいて、これが極めて重要であることを示しています。我々のベンチマーク結果は、最新手法に対してn項関係データセットおよび化学物質-タンパク質関係データセットにおいて精度とF1値でそれぞれ5.44%と3.89%の改善を達成しており、BERT-GTが堅牢な手法であり他のバイオメディカル関係抽出タスクやデータセットにも適用可能であることを示唆しています。