2달 전

MoNoise: 모듈러 정규화 시스템을 이용한 노이즈 모델링

Rob van der Goot; Gertjan van Noord
MoNoise: 모듈러 정규화 시스템을 이용한 노이즈 모델링
초록

우리는 MoNoise를 제안합니다: 일반화와 효율성을 중점으로 둔 정규화 모델로, 쉽게 재사용하고 적응할 수 있도록 설계되었습니다. 정규화는 비표준 영역의 텍스트를 더 표준적인 영역으로 번역하는 작업입니다. 본 연구에서는 소셜 미디어 데이터를 표준 언어로 변환하는 것을 목표로 합니다. 제안된 모델은 각 모듈이 다른 유형의 정규화 작업을 담당하는 모듈식 후보 생성 기반입니다. 가장 중요한 생성 모듈은 철자 교정 시스템과 단어 임베딩 모듈입니다. 정규화 작업의 정의에 따라 성능에 결정적인 역할을 하는 정적 조회 목록이 필요할 수 있습니다. 우리는 모든 종류의 정규화 작업에 잘 일반화되는 랜덤 포레스트 분류기를 훈련시켜 후보들을 순위 매깁니다. 순위 매기기에 사용되는 대부분의 특징들은 생성 모듈에서 유래하지만, N-그램 특징도 중요한 정보 출처임을 입증하였습니다. 우리는 MoNoise가 영어와 네덜란드어에서 다양한 정규화 벤치마크에서 최신 기술을 능가함을 보여주며, 이 벤치마크들은 모두 정규화 작업을 약간 다르게 정의하고 있습니다.

MoNoise: 모듈러 정규화 시스템을 이용한 노이즈 모델링 | 최신 연구 논문 | HyperAI초신경