
要約
文書埋め込みは、現代の自然言語処理(NLP)システムにおいて重要な部分となり、特に先進的な深層学習手法と組み合わせて使用されるようになりました。一般領域では事前学習済みの文書エンコーダが利用可能ですが、バイオメディカルテキスト用のものはこれまで存在していませんでした。本研究では、PubMedの学術論文とMIMIC-III Clinical Databaseの臨床記録から3,000万件以上のドキュメントを用いて訓練された最初のオープンな文書埋め込みセットであるBioSentVecを紹介します。異なるテキストジャンルにおける2つの文ペア類似度タスクでBioSentVecの文書埋め込みを評価しました。ベンチマーク結果は、他の競合する代替手段に比べてBioSentVecの文書埋め込みが文の意味をよりよく捉え、両タスクで最先端の性能を達成していることを示しています。私たちは、BioSentVecがバイオメディカルテキストマイニングに関する研究と開発を促進し、既存のバイオメディカル単語埋め込みリソースを補完することを期待しています。BioSentVecは公開されており、https://github.com/ncbi-nlp/BioSentVec からアクセスできます。