
초록
비지도 해석(Unsupervised parsing), 또는 문법 유도(Grammar induction)는 원시 텍스트에서 구문 구조를 추론하는 것을 목표로 합니다. 최근에, 이진 표현은 어휘 및 구문 수준에서 뛰어난 정보 보존 능력을 보여주었습니다. 본 논문에서는 이러한 능력을 활용하여 원시 텍스트로부터 해석 트리를 도출하고, 모델 내부에서 암묵적으로 유도된 문법에만 의존하는 방법을 탐구합니다. 이를 위해, 비트 단위의 CKY 알고리즘을 0차에서 1차로 업그레이드하여 어휘와 구문을 통합된 이진 표현 공간에서 인코딩하며, 대조적 해싱(Contrastive hashing) 프레임워크 하에서 지도 학습에서 비지도 학습으로 전환하고, 더 강력하면서 균형 잡힌 정렬 신호를 부과하기 위한 새로운 손실 함수를 도입합니다. 우리의 모델은 다양한 데이터셋에서 경쟁력 있는 성능을 보였으며, 따라서 우리는 우리의 방법이 사전 학습된 언어 모델로부터 저렴한 비용으로 고품질의 해석 트리를 획득할 만큼 효과적이고 효율적이라고 주장합니다.