11일 전
구조 인지 인코더의 성능 향상을 위한 극도로 제한된 데이터 기반 그래프 기반 의존성 구문 분석
{Fei Xia, Yan Song, Yuanhe Tian}

초록
의존성 구문 분석( dependency parsing)은 입력 문장의 문법적 구조를 단어 간의 문법 관계를 시각화함으로써 분석하는 중요한 기초 자연어 처리 과제이다. 의존성 구문 분석의 성능을 향상시키기 위해 기존의 의존성 분석기와 추가 데이터(예: 반감독 학습을 통해)를 활용하는 것이 효과적임이 입증되었으며, 이는 최종 분석기가 정확하지는 않지만 방대한 양의 데이터를 기반으로 학습된다는 점에서도 의미가 있다. 본 논문에서는 그래프 기반 의존성 분석을 개선하기 위한 매우 간단하면서도 효과적인 접근법을 제안한다. 이 방법은 자동으로 파싱된 데이터를 기반으로 구조 인식형 인코더를 사전 학습시키고, 이후 정답 의존성 트리 위에서 미세 조정(fine-tuning)하는 방식이다. 기존의 사전 학습 방식이 의존 경로를 따라 등장하는 문맥 단어를 예측하는 데 초점을 맞추는 것과는 달리, 본 연구는 단어 간 의존 관계를 예측하는 데 초점을 두고 있다. 실험 결과와 분석을 통해, 다양한 분석기로 처리된 데이터(노이즈가 포함된 데이터도 포함)를 활용함으로써 본 방법이 효과적이고 강건함을 입증하였다. 다양한 의존성 표준과 사전 학습 및 미세 조정 시 사용된 모델 아키텍처 하에서도 본 방법은 강력한 기준 모델들을 능가하였다. 더욱 중요한 점은, 사전 학습 시 추가 파라미터 없이 단지 2,000개의 자동 파싱 문장만으로도 베이직 BERT-large 기반의 분석기에서 성능 향상을 달성할 수 있음을 추가 분석을 통해 확인했다.