17일 전
트위터를 위한 품사 태깅: 적대적 신경망을 활용한 방법
{Haoran Huang, Xuanjing Huang, Tao Gui, Minlong Peng, Qi Zhang}

초록
본 연구에서는 트윗(Tweets)에 대한 품사 태깅(part-of-speech tagging) 문제를 다룬다. 뉴스 기사와 달리 트윗은 일반적으로 비공식적인 표현을 사용하며, 빈번하게 사전에 없는 단어(out-of-vocabulary words)를 포함한다. 또한 이 분야에 대해 대규모의 레이블링된 데이터셋이 부족한 실정이다. 이러한 도전 과제를 해결하기 위해, 본 연구에서는 영역 외부의 레이블링된 데이터, 영역 내부의 레이블 없음 데이터, 그리고 영역 내부의 레이블링된 데이터를 효과적으로 활용하는 새로운 신경망을 제안한다. 적대적 신경망(adversarial neural networks)의 아이디어를 차용하여, 제안된 방법은 적대적 판별기(adversarial discriminator)를 통해 공통적인 특징을 학습하려 한다. 더불어, 타겟 영역의 영역 특화 특징(domain-specific features)은 어느 정도 보존되어야 한다는 가정을 세웠다. 따라서 본 방법은 시퀀스-투-시퀀스(autoencoder)를 활용하여 이 목적을 달성한다. 세 가지 서로 다른 데이터셋을 대상으로 한 실험 결과, 제안한 방법이 기존 최고 성능(methods)보다 우수한 성능을 보였다.