18일 전

순차적 정렬 기법을 활용한 앙상블 형태소 태깅

{Yoon-Hyung Roh, SangKeun Jung, Jeesu Jung}
초록

품사 태깅은 추가적인 자연어 처리 작업을 위한 기본적인 구조와 내용 정보를 제공하는 핵심적인 과제이다. 전통적으로 품사 태깅 문제는 순차 레이블링 문제로 모델링되어 왔으나, 제안된 앙상블 접근 방식 중에서는 후처리 단계에서 시퀀스 정렬(sequence alignment)에 초점을 맞춘 사례가 없었다. 본 연구에서는 품사 태거를 위한 시퀀스 정렬 기반의 가중 앙상블 기법을 제안한다. 이 기법을 통해 기존의 DNA 정렬 기법을 자연어 처리에 적용한 시퀀스 정렬 방법을 활용하여 유사도 점수를 계산하고, 그 점수를 기반으로 하위 시퀀스를 선택하는 간단하면서도 강력한 후처리기(post-processor)를 도입한다. 실험은 세 가지 다른 하위 시퀀스 단위—즉, 전체 시퀀스, 단어, 문자 범위(span)—를 사용한 시퀀스 정렬 방법의 앙상블을 기반으로 수행되었다. 영어 및 한국어 데이터셋에 대한 실험 결과, 제안한 시퀀스 정렬 기반 앙상블 기법이 기본적인 하드 보팅(hard voting) 방법보다 우수한 성능을 보였다. 다양한 하위 시퀀스 단위를 사용한 앙상블 시퀀스 정렬 접근 방식의 대부분의 결과에서 하드 보팅 대비 F1 점수가 향상되었으며, 테스트 데이터셋에서 하드 보팅 기법 대비 F1 점수는 최대 0.36 증가하는 결과를 얻었다.