UCPhrase: 비감독형 맥락 인식 품질 문구 태깅

문맥에서 품질 문구를 식별하고 이해하는 것은 텍스트 마이닝의 기본적인 작업입니다. 이 작업에서 가장 어려운 부분은 논란의 여지 없이 비일상적, 신규, 그리고 영역 특화된 문구에 있습니다. 이러한 문구들의 드문 성격은 입력 코퍼스에서 충분한 문구 발생을 필요로 하는 문구 마이닝 방법의 성능을 크게 저하시킵니다. 문맥 인식 태깅 모델은 빈도에 제약받지 않지만, 대규모 문장 단위의 골드 라벨 또는 수작업으로 만든 가제터(gazetteers)를 제공하기 위해 영역 전문가에게 크게 의존합니다. 본 연구에서는 UCPhrase라는 새로운 비지도 학습 기반의 문맥 인식 품질 문구 태거를 제안합니다. 구체적으로, 각 문서 내에서 일관되게 함께 등장하는 단어 시퀀스로부터 고품질의 문구 범위를 은색 라벨(silver labels)로 유도합니다. 기존 지식베이스(KBs)에 기반한 일반적인 문맥 무관 원격 감독과 비교하여, 우리의 은색 라벨은 입력 영역과 문맥에 깊게 뿌리를 두고 있어, 문맥의 완전성을 유지하고 신규 및 지식베이스 외의 문구를 포착하는 데 독특한 장점을 가지고 있습니다. 은색 라벨을 기반으로 한 전통적인 신경망 태거의 훈련은 일반적으로 표면 이름에 대한 과적합(overfitting) 위험에 직면해 있습니다. 대신, 트랜스포머 기반의 신경 언어 모델에서 생성된 맥락화된 주목도(attention) 맵이 표면 이름과 무관하게 단어 간 연결을 효과적으로 밝혀낸다는 것을 관찰하였습니다. 따라서, 이러한 주목도 맵을 은색 라벨과 결합하여 경량 스패너(span) 예측 모델을 훈련시키며, 이 모델은 새로운 입력에 적용되어 표면 이름이나 빈도와 상관없이 (미발견) 품질 문구를 인식할 수 있습니다. 다양한 작업 및 데이터셋, 즉 코퍼스 단위의 문구 순위 결정, 문서 단위의 주요 용어 추출, 그리고 문장 단위의 문구 태깅에 대한 철저한 실험을 통해 우리 설계가 최신 사전 학습, 비지도 학습, 그리고 원격 감독 방법보다 우수함을 입증하였습니다.