11일 전
소셜 미디어 텍스트를 위한 의미 증강 기반 명명된 실체 인식
Yuyang Nie, Yuanhe Tian, Xiang Wan, Yan Song, Bo Dai

초록
명명된 개체 인식(Named Entity Recognition, NER)을 위한 기존의 접근 방식은 특히 사용자 생성 콘텐츠인 짧고 비공식적인 텍스트에 적용될 때 데이터 희소성 문제에 직면한다. 세미틱 증강(Semantic Augmentation)은 이 문제를 완화할 수 있는 잠재적인 방법이다. 사전 훈련된 단어 임베딩에는 풍부한 세미틱 정보가 암묵적으로 저장되어 있으므로, 이를 세미틱 증강을 위한 이상적인 자원으로 활용할 수 있다. 본 논문에서는 텍스트 내부의 국소적 정보(런닝 텍스트에서 얻은 정보)와 증강된 세미틱 정보를 모두 고려하는 신경망 기반의 소셜 미디어 텍스트 NER 접근 방식을 제안한다. 특히, 대규모 코퍼스로부터 증강된 세미틱 정보를 추출하고, 해당 정보를 인코딩하고 집계하기 위한 주의 기반 세미틱 증강 모듈과 게이트 모듈을 제안한다. 영어 및 중국어 소셜 미디어 플랫폼에서 수집한 세 가지 벤치마크 데이터셋을 대상으로 광범위한 실험을 수행한 결과, 제안한 방법은 모든 세 가지 데이터셋에서 기존 연구들에 비해 우수한 성능을 보였다.