17일 전

실험 프로토콜의 명명된 실체 인식을 위한 도메인 특화 BERT 표현

Tejas Vaidhya, Ayush Kaushal
실험 프로토콜의 명명된 실체 인식을 위한 도메인 특화 BERT 표현
초록

표현에서 특성 예측을 목표로 훈련된 지도 학습 모델은 다양한 작업에서 높은 정확도를 달성하고 있다. 예를 들어, BERT 계열 모델은 NER 태깅부터 다양한 언어학적 작업에 이르기까지 하류 작업에서 특히 뛰어난 성능을 보이고 있다. 그러나 의료 분야에서 사용되는 어휘에는 다양한 질병명, 장비명, 생물체명, 약물명 등 의료 산업 전용 토큰들이 많아 기존의 BERT 모델이 문맥 기반 임베딩을 효과적으로 생성하기 어렵게 만든다. 본 논문에서는 Bio-BERT 기반의 이름付き 엔터티 태깅 시스템을 제안한다. 실험 결과, 제안한 모델은 기준 모델 대비 상당한 성능 향상을 보였으며, F1 스코어 기준으로는 4위, Recall 기준으로는 2위를 기록하였고, 최고 성능 모델과 F1 스코어 차이가 단 2.21에 그쳤다.