
초록
문장 임베딩은 오늘날의 자연어 처리(NLP) 시스템에서 필수적인 부분이 되었으며, 특히 고급 딥러닝 방법과 함께 사용될 때 더욱 그렇습니다. 일반 영역에서는 사전 학습된 문장 인코더가 존재하지만, 생물의학 텍스트에 대해서는 아직 그러한 인코더가 없습니다. 본 연구에서는 PubMed의 학술 논문과 MIMIC-III 임상 데이터베이스의 임상 노트에서 3,000만 건 이상의 문서를 사용하여 학습된 첫 번째 오픈 세트의 문장 임베딩인 BioSentVec을 소개합니다. 우리는 다양한 텍스트 장르에서 두 가지 문장 쌍 유사성 작업을 통해 BioSentVec 임베딩을 평가하였습니다. 벤치마킹 결과는 BioSentVec 임베딩이 다른 경쟁력 있는 대안들보다 문장 의미를 더 잘 포착하며, 두 작업 모두 최고 수준의 성능을 달성함을 보여주었습니다. 우리는 BioSentVec이 생물의학 텍스트 마이닝 연구 및 개발을 촉진하고, 기존의 생물의학 단어 임베딩 자원을 보완할 것으로 기대합니다. BioSentVec은 공개적으로 https://github.com/ncbi-nlp/BioSentVec 에서 이용 가능합니다.