17日前

構文情報を活用した生物医学名前エンティティ認識の向上

{Kenli Li, Min He, Fei Xia, Yan Song, Wang Shen, Yuanhe Tian}
要約

バイオメディカル名前付きエンティティ認識(BioNER)は、バイオメディカルテキストの理解において重要なタスクであり、大規模なラベル付き学習データの不足やドメイン知識の欠如といった課題により、実装が困難な場合がある。こうした課題に対処するため、強力なエンコーダー(例:biLSTMやBioBERT)を用いることに加えて、容易に入手可能な追加知識を活用する方法が有効である。先行研究では、自動処理された句構造情報(syntactic information)がモデル性能の向上に有用なリソースとなり得ることが示されているが、従来の手法はこれらの構造情報の埋め込みを入力語彙埋め込みに直接連結するという限定的なアプローチにとどまっている。その結果、構造情報が柔軟に活用されず、不正確な情報が含まれている場合にはモデル性能を低下させるリスクが生じる。本論文では、自動処理された句構造情報を効果的に統合できるように、キー・バリュー記憶ネットワーク(KVMN)を用いたBioNERモデル「BIOKMNER」を提案する。我々は、6つの英語バイオメディカルデータセット上でBIOKMNERを評価した結果、従来の強力なベースラインモデルであるBioBERTをすべてのデータセットで上回る性能を達成した。特に、最良のモデルにおいて、BC2GMではF1スコア85.29%、JNLPBAでは77.83%、BC5CDR-chemicalでは94.22%、NCBI-diseaseでは90.08%、LINNAEUSでは89.24%、Species-800では76.33%を記録し、そのうち4つのデータセット(BC2GM、BC5CDR-chemical、NCBI-disease、Species-800)で最先端の性能を達成した。6つの英語ベンチマークデータセットにおける実験結果から、自動処理された句構造情報はBioNERにおいて有用なリソースとなり得ること、また、本研究で提案するKVMNを用いた手法が、こうした情報を適切に活用してモデル性能を向上させ得ることが示された。

構文情報を活用した生物医学名前エンティティ認識の向上 | 最新論文 | HyperAI超神経