2달 전
SubRegWeigh: 서브워드 정규화를 활용한 효과적이고 효율적인 주석 가중치 부여
Kohei Tsuji; Tatsuya Hiraoka; Yuchang Cheng; Tomoya Iwakura

초록
NLP 데이터셋은 수작업으로 주석이 달려 있어도 여전히 주석 오류를 포함할 수 있습니다. 연구자들은 데이터셋 내의 오류가 미치는 부정적인 영향을 자동으로 줄이는 방법을 개발하기 위해 노력해 왔습니다. 그러나 기존 방법은 오류를 감지하기 위해 많은 학습된 모델이 필요하므로 시간이 많이 소요됩니다. 본 논문에서는 시간을 절약하는 방법을 제안합니다. 이 방법은 서브워드 정규화(subword regularization)라는 토큰화 기술을 활용하여 여러 오류 검출 모델을 시뮬레이션하여 오류를 감지합니다. 제안한 방법인 SubRegWeigh는 기존 방법보다 4~5배 빠르게 주석 가중치 부여를 수행할 수 있습니다. 또한, SubRegWeigh는 문서 분류 및 명명된 실체 인식 작업에서 성능 향상을 보였습니다. 가상의 잘못된 라벨 실험에서 SubRegWeigh는 주석 오류로 가상의 잘못된 라벨들을 명확히 식별하였습니다. 우리의 코드는 https://github.com/4ldk/SubRegWeigh 에서 확인할 수 있습니다.