
초록
이 연구는 전이학습 기반 모델과 이름 붙여진 실체 인식(Named Entity Recognition, NER) 작업에서의 효과성을 검토한다. 연구는 각각 단일 문장, 다수 문장, 그리고 주의 메커니즘(attention)을 통해 문장을 연결한 맥락 정보를 벡터 단위로 활용하는 단일(single), 병합(merged), 맥락(context) 전략과 같은 데이터 표현 전략을 탐구한다. 분석 결과, 단일 전략으로 모델을 훈련하는 경우, 다양한 데이터 표현에 대해 성능 저하가 발생할 수 있음을 확인하였다. 이러한 제약을 극복하기 위해, 본 연구는 세 가지 전략을 모두 활용하는 통합 훈련 절차를 제안하여 모델의 안정성과 적응 능력을 향상시키고자 하였다. 제안된 접근법의 결과는 영어, 폴란드어, 체코어, 독일어 등 네 가지 언어에 대해 다양한 데이터셋에서 제시되고 논의되며, 통합 전략의 효과성을 입증하고 있다.