18일 전

사전 훈련된 임베딩 출력의 의미적 풍부화: 비지도 정보 검색을 위한 접근

{Giorgos Stamou, Chrysoula Zerva, Alexios Mandalios, Konstantinos Thomas, Giorgos Filandrianos, Edmund Dervakos}
사전 훈련된 임베딩 출력의 의미적 풍부화: 비지도 정보 검색을 위한 접근
초록

생물의학 및 임상 분야에서 과학 문헌의 급속한 증가로 인해 연구자 및 기타 전문가들이 관심 있는 정보를 탐색하는 것이 매우 복잡해지고 있다. 더욱 중요한 점은, 새로운 주제와 발견들이 빠르게 등장하면서 관련 주석 데이터(annotation)의 부족으로 인해 지도 학습 기반 접근법의 성능이 저해된다는 점이다. 글로벌 코로나19 팬데믹은 과학 문헌의 미지 영역을 신속하고 효율적으로 탐색하고 질의하는 필요성을 더욱 부각시켰다.본 논문에서는 사용자 질의에 대해 비지도(unsupervised) 방식으로 답변할 수 있도록, 딥 트랜스포머 아키텍처를 SNOMED-CT를 활용하여 의미적으로 강화할 수 있는 잠재력을 탐구한다. 제안하는 시스템은 BERT 기반 모델을 통해 초기에 검색된 문서들 중 질의와 관련된 문서를 필터링하고 재정렬하는 것을 목표로 한다. 이를 위해 질의와 문서에 SNOMED-CT 개념을 부가한 후, 두 요소 간의 개념 동시 발생(concept co-occurrence)에 대한 필터를 적용한다. 제안한 접근법은 OHSUMED 데이터셋을 기반으로 평가되었으며, 경쟁력 있는 성능을 보였으며, 또한 Kaggle의 CORD-19 전체 논문 데이터셋 챌린지와 같은 전체 논문 기반의 적용을 위한 방법론도 제시한다.