2달 전
소셜 미디어에서 다중태스크 신경망을 사용하여 명명된 실체를 인식하기 위한 노이즈 모델링
Gustavo Aguilar; A. Pastor López-Monroy; Fabio A. González; Thamar Solorio

초록
문서에서 명명된 실체를 인식하는 것은 많은 자연어 처리(NLP) 응용 프로그램에서 핵심적인 작업입니다. 현재 이 작업의 최신 접근법은 깨끗한 텍스트(예: 뉴스 기사 장르)에서 높은 성능을 보이지만, 소셜 미디어 도메인과 같은 노이즈가 있는 환경으로 옮겨지면 성능이 급격히 저하됩니다. 본 연구에서는 문자 수준의 발음학 및 음운론, 단어 임베딩,以及词性标签作为特征来解决处理社交媒体数据挑战的两个系统。 注:最后一句中出现了中文,我将其翻译为韩文如下:본 연구에서는 문자 수준의 발음학 및 음운론, 단어 임베딩, 그리고 품사 태그를 특징으로 사용하여 소셜 미디어 데이터 처리의 과제를 해결하는 두 가지 시스템을 제시합니다. 첫 번째 모델은 출력층에 두 개의 조건부 확률장(CRF) 분류기를 포함하는 다중태스크 엔드투엔드 양방향 장기-단기 메모리(BLSTM)-CRF 네트워크입니다. 두 번째 모델은 다중태스크 BLSTM 네트워크를 특징 추출기에 사용하여 학습을 최종 예측을 위한 CRF 분류기에 전달합니다. 우리의 시스템들은 Noisy User-generated Text 2017 워크샵 데이터셋에서 현재 최신 방법들의 F1 점수보다 2.45%와 3.69% 각각 더 우수한 성능을 보여주며, 이는 소셜 미디어 환경에 더욱 적합한 접근 방식임을 입증합니다.