
초록
원격 라벨링 데이터는 통계 모델의 학습을 확장하는 데 사용될 수 있지만, 일반적으로 이 데이터는 노이즈가 많고 그 노이즈는 원격 라벨링 기법에 따라 달라질 수 있습니다. 본 연구에서는 이러한 유형의 데이터를 처리하기 위한 두 단계 절차를 제안합니다: 먼저 학습된 모델을 사용하여 데이터에서 노이즈를 제거한 후, 표준 지도 학습을 통해 청정화되고 노이즈가 제거된 원격 데이터로 최종 모델을 학습시키는 것입니다. 우리의 노이즈 제거 접근 방식은 두 부분으로 구성됩니다. 첫째, 필터링 함수는 원격 라벨링 데이터에서 전혀 사용할 수 없는 예제들을 버립니다. 둘째, 재라벨링 함수는 유지된 예제들의 노이즈가 있는 라벨을 수정합니다. 각 구성 요소는 작은 규모의 수동으로 라벨링된 집합에서 생성된 인공적으로 노이즈가 추가된 예제들로 학습됩니다. 우리는 Choi 등 (2018)의 초미세 엔티티 타이핑 작업에 대해 이 접근 방식을 조사하였습니다. 우리의 베이스라인 모델은 그들이 제안한 모델에 사전 학습된 ELMo 표현을 확장한 것으로, 이미 최신 성능을 달성하고 있습니다. 우리 학습 모델로 노이즈를 제거한 원격 데이터를 추가하면 이 베이스라인 모델보다 더 나은 성능 향상을 가져오며, 원시 원격 데이터나 휴리스틱으로 노이즈를 제거한 원격 데이터로 학습된 모델들을 능가합니다.