17일 전
BioBERTpt - 임상 명명된 개체 인식을 위한 포르투갈어 신경 언어 모델
{Cláudia Maria Cabral Moro Barra, Douglas Teodoro, Emerson Cabrera Paraiso, Lucas Ferro Antunes de Oliveira, Yohan Bonescki Gumiel, Jenny Copara, Lucas Emanuel Silva e Oliveira, Julien Knafou, João Vitor Andrioli de Souza, Elisa Terumi Rubel Schneider}

초록
전자 건강 기록 데이터의 증가에 따라 비구조화된 임상 텍스트에서 유용한 정보를 추출하기 위한 임상 NLP 작업의 중요성이 점점 커지고 있다. 최근 컨텍스트 기반 언어 모델을 활용한 영어 코퍼스에서 명명된 엔티티 인식(NER)과 같은 하류 NLP 작업의 성능이 향상되었지만, 자원이 부족한 언어에서의 임상 텍스트에 대한 연구는 여전히 제한적이다. 본 연구의 목적은 포르투갈어를 위한 심층적 컨텍스트 임베딩 모델인 BioBERTpt을 평가하여 임상 및 생물의학 분야의 NER를 지원하는 데 있다. 우리는 다국어 BERT 모델에서 학습된 정보를 브라질 포르투갈어로 작성된 임상 서사 및 생물의학 과학 논문 코퍼스에 전이하였다. BioBERTpt의 성능을 평가하기 위해, 임상 서사가 포함된 두 개의 주석화된 코퍼스에서 NER 실험을 수행하고, 기존의 BERT 모델들과의 성능을 비교하였다. 제안하는 도메인 내 모델은 F1 점수에서 기준 모델보다 2.72% 향상되었으며, 평가된 13개 엔티티 중 11개에서 더 높은 성능을 달성하였다. 본 연구는 도메인 문헌을 기반으로 컨텍스트 임베딩 모델을 풍부하게 하는 것이 특정 NLP 작업의 성능 향상에 중요한 역할을 할 수 있음을 입증한다. 또한 전이 학습 과정을 통해 레이블이 붙은 데이터의 필요성을 줄이고, 완전히 새로운 모델을 재학습해야 하는 요구를 감소시킬 수 있음을 보여준다.