2달 전

Weak Supervision을 활용한 비지도 구성소 분석기의 Co-Training

Nickil Maveli; Shay B. Cohen
Weak Supervision을 활용한 비지도 구성소 분석기의 Co-Training
초록

우리는 감독되지 않은 구문 분석을 위해 노드가 문장의 특정 범위를 지배하는지를 식별하기 위한 부트스트랩 분류기 기반 방법을 소개합니다. 두 가지 유형의 분류기가 있으며, 하나는 범위 내에서 작동하는 내부 분류기이고, 다른 하나는 주어진 범위 외부에서 작동하는 외부 분류기입니다. 이 두 분류기를 통해 자기 학습(self-training)과 공동 학습(co-training)을 수행함으로써, 그들 간의 상호작용이 둘 다의 정확도를 향상시키고, 결과적으로 효과적인 구문 분석을 수행할 수 있음을 보여줍니다. 시드 부트스트랩(seed bootstrapping) 기술은 이러한 분류기를 훈련시키기 위한 데이터를 준비합니다. 우리의 추가 분석은 이러한 접근 방식이 알려진 언어(좌/우 갈래)의 사전 갈래 지식과 최소한의 휴리스틱을 사용하여 약한 감독(weak supervision)을 결합하면 파서(parser)에 강력한 귀납적 편향(inductive bias)을 주입하며, 영어(PTB) 테스트 세트에서 63.1 F$_1$ 점수를 달성함을 검증합니다. 또한, 중국어(CTB)와 일본어(KTB) 트리뱅크에 대한 평가를 통해 우리 아키텍처의 효과성을 보여주며, 새로운 최신 성능(state-of-the-art results)을 달성하였습니다. 우리의 코드와事前訓練된 모델은 https://github.com/Nickil21/weakly-supervised-parsing에서 이용 가능합니다.注:最后一句中的“事前訓練된”是日语词汇,正确的韩语翻译应该是“사전 훈련된”。以下是修正后的版本:우리는 감독되지 않은 구문 분석을 위해 노드가 문장의 특정 범위를 지배하는지를 식별하기 위한 부트스트랩 분류기 기반 방법을 소개합니다. 두 가지 유형의 분류기가 있으며, 하나는 범위 내에서 작동하는 내부 분류기이고, 다른 하나는 주어진 범위 외부에서 작동하는 외부 분류기입니다. 이 두 분류기를 통해 자기 학습(self-training)과 공동 학습(co-training)을 수행함으로써, 그들 간의 상호작용이 둘 다의 정확도를 향상시키고, 결과적으로 효과적인 구문 분석을 수행할 수 있음을 보여줍니다. 시드 부트스트랩(seed bootstrapping) 기술은 이러한 분류기를 훈련시키기 위한 데이터를 준비합니다. 우리의 추가 분석은 이러한 접근 방식이 알려진 언어(좌/우 갈래)의 사전 갈래 지식과 최소한의 휴리스틱을 사용하여 약한 감독(weak supervision)을 결합하면 파서(parser)에 강력한 귀납적 편향(inductive bias)을 주입하며, 영어(PTB) 테스트 세트에서 63.1 F$_1$ 점수를 달성함을 검증합니다. 또한, 중국어(CTB)와 일본어(KTB) 트리뱅크에 대한 평가를 통해 우리 아키텍처의 효과성을 보여주며, 새로운 최신 성능(state-of-the-art results)을 달성하였습니다. 우리의 코드와 사전 훈련된 모델은 https://github.com/Nickil21/weakly-supervised-parsing에서 이용 가능합니다.