12일 전

BIOSSES: 생물의학 분야를 위한 의미적 문장 유사도 추정 시스템

{Arzucan Özgür, Hakime Öztürk, Gizem Sogancioglu}
초록

동기: 생물의학 분야에서 텍스트 형식으로 제공되는 정보의 양이 급격히 증가하고 있다. 이에 따라 자연어 처리(NLP) 기술의 활용이 더욱 중요해지고 있으며, 이러한 데이터의 검색 및 분석을 보다 효과적으로 지원할 수 있다. 문장 간 의미적 유사도 계산은 텍스트 검색 및 요약과 같은 다양한 NLP 작업에서 핵심적인 구성 요소이다. 일반적인 영어 문장에 대한 의미적 유사도 추정을 위한 여러 접근법이 제안되었지만, 우리의 실험 결과에 따르면 이러한 방법들은 생물의학 지식을 충분히 반영하지 못하며, 생물의학 텍스트에 적용했을 때 낮은 성능을 보였다.방법: 본 연구에서는 생물의학 분야에서 문장 수준의 의미적 유사도 계산을 위한 여러 접근법을 제안한다. 먼저, 문자열 유사도 측정 방식과, 대규모 생물의학 코퍼스로부터 비지도 방식으로 학습된 문장의 분산 벡터 표현을 기반으로 한 측정 방식을 제안한다. 또한 일반적이고 분야 특화된 온톨로지(ontology)를 활용하는 온톨로지 기반 접근법을 제시한다. 마지막으로, 다양한 유사도 측정 지표들을 효과적으로 통합하는 지도 학습 기반 회귀 모델을 개발하였다. 제안된 방법들을 평가하기 위해, 생물의학 문헌에서 추출한 100개의 문장 쌍으로 구성된 벤치마크 데이터셋을 5명의 전문가가 수작업으로 주석 처리하여 사용하였다.결과: 실험 결과, 지도 학습 기반의 의미적 문장 유사도 계산 방법이 가장 우수한 성능을 보였으며, 인간 전문가의 기준(골드 스탠다드)과의 상관관계가 0.836에 달했고, 피어슨 상관 계수 기준으로 기존의 도메인 독립적 최첨단 시스템 대비 최대 42.6% 향상을 달성하였다.

BIOSSES: 생물의학 분야를 위한 의미적 문장 유사도 추정 시스템 | 최신 연구 논문 | HyperAI초신경