2달 전

의료 분야에서 인기 있는 몇 가지 NER 접근 방식의 비교 및 결합

Harsh Verma; Sabine Bergler; Narjesossadat Tahaei
의료 분야에서 인기 있는 몇 가지 NER 접근 방식의 비교 및 결합
초록

우리는 NER(명사 인식)를 위한 세 가지 간단하고 인기 있는 접근 방식을 비교합니다: 1) SEQ (선형 토큰 분류기를 사용한 시퀀스 라벨링) 2) SeqCRF (Conditional Random Fields를 사용한 시퀀스 라벨링), 그리고 3) SpanPred (경계 토큰 임베딩을 사용한 스패너 예측). 우리는 이 접근 방식들을 4개의 의생명 과학 NER 작업에 대해 비교합니다: GENIA, NCBI-질병, LivingNER (스페인어), 그리고 SocialDisNER (스페인어). SpanPred 모델은 LivingNER와 SocialDisNER에서 최신 기술 수준의 성능을 보여주며, 각각 F1 점수를 1.3과 0.6 개선하였습니다. SeqCRF 모델 역시 LivingNER와 SocialDisNER에서 최신 기술 수준의 성능을 보여주며, 각각 F1 점수를 0.2와 0.7 개선하였습니다. SEQ 모델은 LivingNER 데이터셋에서 최신 기술 수준과 경쟁력을 보였습니다.우리는 이 세 가지 접근 방식을 결합하는 몇 가지 간단한 방법을 탐색합니다. 다수결 투표가 모든 4개 데이터셋에서 일관되게 높은 정밀도와 높은 F1 점수를 제공함을 확인하였습니다. 마지막으로, SEQ와 SpanPred의 예측 결과를 결합하는 시스템을 학습하여 구현하였으며, 이 시스템이 모든 4개 데이터셋에서 일관되게 높은 재현율과 높은 F1 점수를 제공함을 확인하였습니다. GENIA 데이터셋에서는 우리의 학습된 결합 시스템이 결합된 시스템들보다 F1 점수(+1.2)와 재현율(+2.1)이 유의미하게 향상됨을 발견하였습니다.우리는 모든 시스템을 재현하기 위해 필요한 잘 문서화된 코드를 https://github.com/flyingmothman/bionlp 에 공개합니다.

의료 분야에서 인기 있는 몇 가지 NER 접근 방식의 비교 및 결합 | 최신 연구 논문 | HyperAI초신경