Command Palette

Search for a command to run...

4ヶ月前

BIOSSES:バイオ医療分野向けの意味的文類似度推定システム

{Arzucan Özgür Hakime Öztürk Gizem Sogancioglu}

要約

動機:バイオメディカル分野におけるテキスト形式で提供される情報量は急速に増加しており、そのデータの検索および解析を支援するため、自然言語処理(NLP)の応用がますます重要性を増している。文間の意味的類似度を計算することは、テキスト検索や要約などの多くのNLPタスクにおいて重要な要素である。一般英語を対象とした意味的文類似度推定に関する多数の手法が提案されてきたが、我々の実験結果によれば、これらの手法はバイオメディカル知識を十分に捉えられず、バイオメディカルテキストに対しては劣った性能を示すことが明らかになった。手法:本研究では、バイオメディカル分野における文レベルの意味的類似度計算を目的として、複数のアプローチを提案する。まず、文字列類似度測度および大規模なバイオメディカルコーパスから非教師あり学習により得られた文の分散表現(distributed vector representations)に基づく測度を用いる。さらに、一般的な知識や分野固有のオントロジーを活用するオントロジーに基づくアプローチも提示する。最後に、異なる類似度計算指標を効果的に統合するための教師あり回帰モデルを構築した。提案手法の評価には、バイオメディカル文献から抽出した100組の文ペアを5名の専門家が手動でアノテーションしたベンチマークデータセットを用いた。結果:実験の結果、教師ありの意味的文類似度計算手法が最も優れた性能を示し(ゴールドスタンダードの人間アノテーションとの相関係数0.836)、ピアソン相関係数において従来のドメイン非依存システムを最大42.6%向上させた。

ベンチマーク

ベンチマーク方法論指標
sentence-embeddings-for-biomedical-texts-onParagraph Vector
Pearson Correlation: 0.787

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
BIOSSES:バイオ医療分野向けの意味的文類似度推定システム | 論文 | HyperAI超神経