
私たちは、NER(固有表現認識)のための3つの単純かつ人気のあるアプローチを比較します。1) SEQ(線形トークン分類器を使用したシーケンスラベリング)、2) SeqCRF(条件付き確率場を使用したシーケンスラベリング)、3) SpanPred(境界トークン埋め込みを使用したスパン予測)です。これらのアプローチは、4つのバイオメディカルNERタスクで比較されます:GENIA、NCBI-Disease、LivingNER(スペイン語)、およびSocialDisNER(スペイン語)。SpanPredモデルは、LivingNERとSocialDisNERで最先端の性能を示し、それぞれF1スコアを1.3ポイントと0.6ポイント向上させました。SeqCRFモデルもまた、LivingNERとSocialDisNERで最先端の性能を示し、それぞれF1スコアを0.2ポイントと0.7ポイント向上させました。SEQモデルは、LivingNERデータセットにおいて最先端の性能と競争しています。私たちは、これらの3つのアプローチを組み合わせるいくつかの単純な方法を探ります。その結果、多数決投票が全4データセットにおいて一貫して高い精度と高いF1スコアを達成することがわかりました。最後に、SEQとSpanPredの予測を学習によって組み合わせるシステムを実装しました。これにより、全4データセットにおいて一貫して高いリコール率と高いF1スコアが得られるシステムが生成されました。GENIAデータセットでは、学習されたコンバインシステムが組み合わされるシステムよりも有意にF1スコア(+1.2)とリコール率(+2.1)が向上することが確認されました。私たちは、すべてのシステムを再現するために必要な詳細なドキュメント付きコードを https://github.com/flyingmothman/bionlp で公開しています。翻訳注釈NER (Named Entity Recognition): 固有表現認識SEQ (sequence-labeling with a linear token classifier): 線形トークン分類器を使用したシーケンスラベリングSeqCRF (sequence-labeling with Conditional Random Fields): 条件付き確率場を使用したシーケンスラベリングSpanPred (span-prediction with boundary token embeddings): 境界トークン埋め込みを使用したスパン予測GENIA: GENIAデータセットNCBI-Disease: NCBI疾患データセットLivingNER (Spanish): スペイン語版LivingNERデータセットSocialDisNER (Spanish): スペイン語版SocialDisNERデータセットF1 score: F1スコアRecall: リコール率以上の翻訳は、専門的な技術用語や概念を正確に翻訳し、日本語の表記習慣に合わせて自然な表現を目指しています。また、正式且つ客観的な書き方を取り入れています。