딥러닝과 휴리스틱을 활용한 PubMed 전체 텍스트 논문 내 화학물질 식별 및 인덱싱
의약학 분야에서 논문 내 화학물질 식별은 약물 개발 연구의 중요성으로 인해 생물의학 과학계의 큰 관심을 끌고 있다. 이전의 대부분의 연구는 PubMed 초록에 집중되어 왔으며, 보다 풍부한 정보를 포함하고 있는 전문 문서(full-text documents)를 활용한 추가적인 탐구가 필요하다. 이러한 논문에 대해 의학적 주제어(MeSH) 항목을 수작업으로 인덱싱하는 작업은 연구자들이 자신의 연구와 관련된 가장 적절한 논문을 찾는 데 큰 도움이 된다. BioCreative VII NLM-Chem 트랙은 PubMed 전문 문서 내 화학물질 식별 및 인덱싱 시스템의 개발을 촉진하였다. 화학물질 식별은 화학물질 언급(chemical mentions)을 식별하고, 이를 고유한 MeSH 식별자와 연결하는 것을 포함한다. 본 논문은 우리 팀의 참여 시스템 및 챌린지 이후 개선한 사항을 설명한다. 우리는 화학물질 언급 탐지, 실체 정규화(entity normalization), 인덱싱을 각각 수행하는 3단계 파이프라인을 제안한다. 화학물질 식별에 있어서, PubMedBERT의 문맥 기반 임베딩을 활용한 딥러닝 솔루션을 채택하였으며, 이는 다층 퍼셉트론과 조건부 확률 필드(conditional random field) 태깅 레이어를 따라 수행된다. 정규화 접근법으로는 체계적인 사전 필터링(sieve-based dictionary filtering)을 적용한 후, 딥러닝 기반 유사도 검색 전략을 도입하였다. 마지막으로, 인덱싱을 위해 각 논문에 가장 관련성이 높은 MeSH 코드를 식별하기 위한 규칙을 개발하였다. 챌린지 기간 동안, 화학물질 언급 인식 작업에서 성능이 낮았음에도 불구하고, 정규화 및 인덱싱 작업에서 공식 결과 기준으로 최고 성과를 기록하였다. 챌린지 이후 단계에서 명명된 실체 인식(NER) 모델에 추가 기법을 적용하여 성능을 향상시켰다. 최종 시스템은 화학물질 식별, 정규화, 인덱싱 작업에서 각각 0.8731, 0.8275, 0.4849의 성능을 달성하였다. 실험 재현 및 파이프라인 실행을 위한 코드는 공개되어 있다.데이터베이스 URL: https://github.com/bioinformatics-ua/biocreativeVII_track2