비지도 경계 인식 언어 모델 사전 학습을 통한 중국어 시퀀스 라벨링

경계 정보는 중국어 처리 작업의 다양한 분야에서 중요한 역할을 합니다. 예를 들어, 단어 분리, 품사 태깅, 고유 명사 인식 등이 있습니다. 이전 연구에서는 주로 고품질의 외부 사전을 사용하여 사전 항목이 명시적인 경계 정보를 제공하도록 하였습니다. 그러나 사전의 품질을 보장하기 위해서는 많은 인간의 노력이 필요하며, 이 점은 일반적으로 간과되었습니다. 본 연구에서는 감독되지 않은 통계적 경계 정보를 제안하고, 이러한 정보를事前訓練된 언어 모델에 직접 인코딩하는 아키텍처를 제안합니다. 이를 통해 경계 인식 BERT (BABERT)가 개발되었습니다. 우리는 BABERT를 중국어 시퀀스 라벨링 작업의 특성 유도에 적용하였습니다. 중국어 시퀀스 라벨링의 10개 벤치마크에서 수행한 실험 결과, BABERT가 모든 데이터셋에서 일관된 성능 향상을 제공함을 확인하였습니다. 또한, 우리의 방법은 외부 사전 정보와 결합될 때 기존의 감독된 사전 탐색을 보완하여 추가적인 성능 향상을 달성할 수 있음을 보여주었습니다.注: "事前訓練된" 是中文原文中的 "pre-trained" 的韩文翻译,但在这里应该使用 "사전 학습된" 更为恰当。以下是修正后的版本:경계 정보는 중국어 처리 작업의 다양한 분야에서 중요한 역할을 합니다. 예를 들어, 단어 분리, 품사 태깅, 고유 명사 인식 등이 있습니다. 이전 연구에서는 주로 고품질의 외부 사전을 사용하여 사전 항목이 명시적인 경계 정보를 제공하도록 하였습니다. 그러나 사전의 품질을 보장하기 위해서는 많은 인간의 노력이 필요하며, 이 점은 일반적으로 간과되었습니다. 본 연구에서는 감독되지 않은 통계적 경계 정보를 제안하고, 이러한 정보를 사전 학습된 언어 모델에 직접 인코딩하는 아키텍처를 제안합니다. 이를 통해 경계 인식 BERT (BABERT)가 개발되었습니다. 우리는 BABERT를 중국어 시퀀스 라벨링 작업의 특성 유도에 적용하였습니다. 중국어 시퀀스 라벨링의 10개 벤치마크에서 수행한 실험 결과, BABERT가 모든 데이터셋에서 일관된 성능 향상을 제공함을 확인하였습니다. 또한, 우리의 방법은 외부 사전 정보와 결합될 때 기존의 감독된 사전 탐색을 보완하여 추가적인 성능 향상을 달성할 수 있음을 보여주었습니다.