2달 전

소셜 미디어에서 텍스트 정규화를 위한 시퀀스-투-시퀀스 모델의 적응

Ismini Lourentzou; Kabir Manghnani; ChengXiang Zhai
소셜 미디어에서 텍스트 정규화를 위한 시퀀스-투-시퀀스 모델의 적응
초록

소셜 미디어는 값진 원시 데이터의 풍부한 출처를 제공하지만, 비격식적인 글쓰기는 많은 자연어 처리(NLP) 작업에서 병목 현상이 될 수 있습니다. 기성품 도구들은 일반적으로 격식을 갖춘 텍스트로 훈련되며, 짧은 온라인 게시물에 나타나는 노이즈를 명시적으로 처리할 수 없습니다. 또한, 자주 발생하는 언어 변형의 다양성은 슬랭과 약자가 포함된 경우 특히 인간조차도 해당 게시물의 의미를 이해하기 어려울 수 있는 여러 문제를 제기합니다. 텍스트 정규화는 온라인 사용자가 생성한 텍스트를 표준 형식으로 변환하는 것을 목표로 합니다. 현재의 텍스트 정규화 시스템은 문자 또는 발음 유사성과 로컬 방식으로 작동하는 분류 모델에 의존하고 있습니다. 우리는 이 작업에서 문맥 정보를 처리하는 것이 중요하다고 주장하며, 소셜 미디어 텍스트 정규화를 위한 하이브리드 단어-문자 주의 기반 인코더-디코더 모델을 소개합니다. 이 모델은 NLP 응용 프로그램의 전처리 단계로서 소셜 미디어에서 발견되는 노이즈 텍스트에 적응할 수 있습니다. 우리의 문자 기반 구성 요소는 온라인 사용자가 생성한 텍스트에서 일반적으로 발견되는 오류를 포착하도록 설계된 합성 적대적 예제로 훈련됩니다. 실험 결과, 우리의 모델은 텍스트 정규화를 위해 설계된 신경망 구조들을 능가하며, 최신 관련 연구와 유사한 성능을 달성하였습니다.

소셜 미디어에서 텍스트 정규화를 위한 시퀀스-투-시퀀스 모델의 적응 | 최신 연구 논문 | HyperAI초신경