18일 전

공식 뉴스통신 도메인에서 Hypernet을 활용한 트위터 POS 태깅으로의 전이

{Xuanjing Huang, Keyu Ding, Di Liang, Tao Gui, Minlong Peng, Qi Zhang, Jingjing Gong}
공식 뉴스통신 도메인에서 Hypernet을 활용한 트위터 POS 태깅으로의 전이
초록

트위터에 대한 품사 태깅(POS tagging)은 최근 몇 년간 상당한 주목을 받아왔다. 대부분의 품사 태깅 기법은 지도 학습 기반 모델에 기반하고 있어 훈련을 위해 대량의 레이블링된 데이터를 필요로 한다. 그러나 트위터용으로 기존에 존재하는 레이블링된 데이터셋은 뉴스 기사 텍스트에 비해 훨씬 작다. 따라서 트위터 품사 태깅을 지원하기 위해 대부분의 도메인 적응 방법은 두 도메인 간의 공유 특징을 학습함으로써 뉴스 기사 데이터셋을 활용하려는 시도를 한다. 그러나 언어학적 관점에서 보면, 트위터 사용자들은 전통 미디어인 뉴스와 같은 공식적인 표현 방식을 모방하는 경향이 있을 뿐만 아니라, 동시에 언어적으로 비공식적인 스타일을 발전시키고 있는 것으로 보인다. 따라서 공식적인 트위터 문맥에 대한 품사 태깅은 뉴스 기사 데이터셋과 함께 학습할 수 있지만, 비공식적인 트위터 문맥에 대한 품사 태깅은 별도로 학습되어야 한다. 이 작업을 달성하기 위해 본 연구에서는 다양한 표현 스타일을 가진 문맥을 별도로 모델링할 수 있도록, 하이퍼넷 기반의 방법을 제안한다. 이 방법은 서로 다른 파라미터를 생성함으로써 각 문맥에 적합한 모델링을 가능하게 한다. 세 가지 다른 데이터셋에서 수행한 실험 결과, 제안한 방법이 대부분의 경우 최신 기술 대비 더 우수한 성능을 보였다.