要約
動機:バイオメディカル分野におけるテキスト形式で提供される情報量は急速に増加しており、そのデータの検索および解析を支援するため、自然言語処理(NLP)の応用がますます重要性を増している。文間の意味的類似度を計算することは、テキスト検索や要約などの多くのNLPタスクにおいて重要な要素である。一般英語を対象とした意味的文類似度推定に関する多数の手法が提案されてきたが、我々の実験結果によれば、これらの手法はバイオメディカル知識を十分に捉えられず、バイオメディカルテキストに対しては劣った性能を示すことが明らかになった。手法:本研究では、バイオメディカル分野における文レベルの意味的類似度計算を目的として、複数のアプローチを提案する。まず、文字列類似度測度および大規模なバイオメディカルコーパスから非教師あり学習により得られた文の分散表現(distributed vector representations)に基づく測度を用いる。さらに、一般的な知識や分野固有のオントロジーを活用するオントロジーに基づくアプローチも提示する。最後に、異なる類似度計算指標を効果的に統合するための教師あり回帰モデルを構築した。提案手法の評価には、バイオメディカル文献から抽出した100組の文ペアを5名の専門家が手動でアノテーションしたベンチマークデータセットを用いた。結果:実験の結果、教師ありの意味的文類似度計算手法が最も優れた性能を示し(ゴールドスタンダードの人間アノテーションとの相関係数0.836)、ピアソン相関係数において従来のドメイン非依存システムを最大42.6%向上させた。