11일 전

특화된 도메인을 위한 임베딩 전략: 임상 엔티티 인식에의 적용

{Pierre Zweigenbaum, Olivier Ferret, Hicham El Boukkouri, Thomas Lavergne}
특화된 도메인을 위한 임베딩 전략: 임상 엔티티 인식에의 적용
초록

사전에 훈련된 단어 임베딩을 딥러닝 모델과 결합하는 것은 자연어 처리(NLP) 분야에서 사실상의 표준 접근 방식이 되었다. 이러한 방법은 일반적으로 만족스러운 성능을 제공하지만, 임상 보고서와 같은 전문 분야의 텍스트에서는 상용 단어 임베딩이 성능이 낮은 경향이 있다. 또한, 도메인 내 데이터가 충분히 크지 않기 때문에 전문적인 단어 표현을 처음부터 훈련하는 것은 종종 불가능하거나 효과적이지 않다. 본 연구에서는 이러한 문제를 해결하기 위해 임상 분야에 초점을 맞추어 일반 도메인 자원만을 활용하는 임베딩 전략을 탐구한다. 그 결과, 임상 데이터에서 수집한 소규모 도메인 내 코퍼스를 기반으로 사전 훈련된 static word2vec 임베딩과 상황 인식 임베딩(ELMo)을 결합함으로써, 대규모 의료 도메인 코퍼스에서 학습된 표현을 도달하거나 때로는 이를 능가하는 성능을 달성할 수 있음을 보여주었다.

특화된 도메인을 위한 임베딩 전략: 임상 엔티티 인식에의 적용 | 최신 연구 논문 | HyperAI초신경