17일 전

비지도 구문 분석을 위한 S-DIORA: 깊이 있는 안팎 재귀 자동인코더를 위한 단일 트리 인코딩

{Andrew McCallum, Mohit Iyyer, Tim O{'}Gorman, Yi-Pei Chen, Subendhu Rongali, Andrew Drozdov}
비지도 구문 분석을 위한 S-DIORA: 깊이 있는 안팎 재귀 자동인코더를 위한 단일 트리 인코딩
초록

심층 내외 재귀 자동에코더(DIORA; Drozdov 등, 2019)는 레이블이 붙은 학습 데이터에 접근하지 않고도 입력 문장에 대해 문법적 트리 구조를 자발적으로 학습하는 자기지도 학습 신경망 모델이다. 본 논문에서는 DIORA가 문장의 모든 가능한 이진 트리를 부드러운 동적 프로그래밍 방식으로 철저히 인코딩하지만, 하향식 차트 파싱에서 최고 점수를 기록하는 파싱 트리를 계산할 때 범위 내에서 탐욕적 접근 방식을 취함으로써 오류를 복구하지 못한다는 점을 발견하였다. 이 문제를 해결하기 위해, 차트 내 각 셀에서 하드 아르그맥스 연산과 비트를 활용하여 트리의 부드럽게 가중된 혼합 대신 단일 트리를 인코딩하는 개선된 DIORA의 변형인 S-DIORA를 제안한다. 실험 결과, 본 연구의 새로운 알고리즘을 통해 사전 학습된 DIORA를 미세조정(fine-tuning)할 경우, 영어 WSJ Penn Treebank 데이터셋에서 비지도 구성 파싱(unsupervised constituency parsing)의 최신 기준 성능이 2.2~6%까지 향상됨을 확인하였다.