9일 전
딥 러닝 및 규칙 기반 방법을 이용한 PubMed 전체 텍스트 논문 내 화학 물질 탐지 및 인덱싱
{Sérgio Matos, João Rafael Almeida, João Figueira Silva, Rui Antunes, Tiago Almeida}
초록
생명의학 분야 과학 문헌 내 화학물질 식별은 신약 개발 연구에 있어 핵심적인 과제이다. BioCreative NLM-Chem 챌린지는 전체 논문 텍스트 내 화학물질을 자동으로 식별하고, 어떤 화학 개념이 색인화에 적합한지 결정할 수 있는 자동 시스템의 개발을 촉진하였다. 본 연구에서는 아베이루 대학교의 BIT.UA 팀이 참여한 사례를 소개하며, (i) 화학물질 언급 탐지, (ii) 엔티티 정규화, (iii) 색인화를 각각 독립적으로 처리하는 3단계 자동 파이프라인을 제안한다. 화학물질 식별을 위해 생물의학 분야 BERT 변형 기반의 딥러닝 솔루션을 채택하였고, 정규화에는 규칙 기반 접근법과 밀도 검색(dense retrieval) 메커니즘을 활용한 하이브리드 방식을 사용하였다. 색인화 역시 두 가지 별개의 접근법을 적용하였으며, 각각 규칙 기반 방법과 TF-IDF 기반 방법을 사용하였다. 최종 공식 결과에서는 세 하위 과제 모두에서 공식 중앙값 및 벤치마크를 상회하는 성능을 기록하였으며, 각각 F1 점수 0.8454, 0.8136, 0.4664를 달성하였다.