背景:臨床試験において、介入が人間の健康に与える影響を評価するためにモニタリングされる変数を「アウトカム」と呼ぶ。このアウトカム同士の意味的類似度を自動的に評価することは、Outcome Switching(事前に定義されたアウトカムに対する不適切な変更)の検出や、特定の医学分野において報告すべき最小限のアウトカム集合(Core Outcome Sets)の実装といった複数のタスクに不可欠である。目的:本研究では、主なアウトカム(primary outcomes)と報告されたアウトカム(reported outcomes)のペア間の意味的類似度を評価するためのアルゴリズムの構築を目的とした。特に、オントロジーや辞書といった手動で構築された分野特有のリソースを必要としないアプローチに焦点を当てた。方法:単一の類似度測定法(文字列、語幹・語幹形、オントロジー内の経路および距離、フレーズのベクトル表現に基づくもの)、複数の単一測定値を特徴量として組み合わせた分類器、および事前学習済みの深層言語表現を微調整する深層学習アプローチを検証した。深層学習モデルとして、一般ドメインテキストで学習されたBERT、および生物医学・科学文献で学習されたBioBERTとSciBERTを用いた。また、アウトカムを指す際のバリエーション(例:測定ツール名の使用、略語の使用など)を考慮することで性能向上の可能性を検討した。本研究では、アウトカムペアの類似度に関するアノテーションが付与されたオープンコロナ(open corpus)を公開した。結果:単一測定法を用いたモデルよりも、複数の単一測定値を特徴量として組み合わせた分類器が優れた性能を示した。一方で、BioBERTおよびSciBERTを用いた深層学習モデルは、分類器を上回る性能を達成した。特にBioBERTはF値89.75%を達成した。一方、アウトカムのバリエーションを追加しても、最も性能の高い単一測定法および分類器には有意な改善は見られなかったが、深層学習モデルにおいては性能が向上した。特にBioBERTは、F値93.38%を達成した。結論:事前学習済みの言語表現を用いた深層学習アプローチは、オントロジーやその他の手動で構築された語彙リソースに依存せずに、臨床試験のアウトカム間類似度評価において他の手法を上回る性能を示した。さらに、アウトカムのバリエーションを考慮することで、深層学習モデルの性能がさらに向上した。