문서 수준의 화학명칭 엔티티 인식을 위한 주의 기반 BiLSTM-CRF 방법
동기: 생물의학 연구 분야에서 화학 물질은 중요한 엔티티의 한 종류이며, 화학 물질 명명 엔티티 인식(Chemical Named Entity Recognition, NER)은 생물의학 정보 추출 분야에서 중요한 과제이다. 그러나 현재 가장 널리 사용되는 화학 물질 NER 방법들은 전통적인 기계 학습 기반으로, 특성 공학에 크게 의존하며, 문장 수준의 접근 방식을 사용하기 때문에 태깅 불일치 문제를 겪는다. 결과: 본 논문에서는 문서 수준의 화학 물질 NER을 위한 신경망 기반 접근법, 즉 조건부 확률 필드 레이어를 갖춘 주목력 기반 양방향 장단기 기억망(Attention-based Bidirectional Long Short-Term Memory with a Conditional Random Field layer, Att-BiLSTM-CRF)을 제안한다. 이 방법은 주목력 기반 메커니즘을 통해 문서 수준의 전역 정보를 활용하여 동일한 토큰이 문서 내 여러 번 등장할 때에도 태깅의 일관성을 강제한다. 이는 다른 최신 기술들에 비해 거의 특성 공학 없이도 BioCreative IV 화학 화합물 및 약물명 인식(CHEMDNER) 코퍼스와 BioCreative V 화학-질병 관계(CDR) 작업 코퍼스에서 우수한 성능을 달성하였으며, 각각 F-스코어 91.14%와 92.57%를 기록하였다. 공개 및 구현: 데이터와 코드는 https://github.com/lingluodlut/Att-ChemdNER에서 제공된다. 문의처: [email protected] 또는 [email protected] 보충 정보: 보충 자료는 Bioinformatics 온라인에서 제공된다.