
초록
우리는 새로운 언어 모델(LM) 추정 기법인 희소 비음수 행렬(SNM) 추정을 제시합니다. One Billion Word 벤치마크에서 SNM $n$-그램 LM의 성능을 경험적으로 평가한 첫 번째 실험 결과는 SNM $n$-그램 LM이 잘 알려진 Kneser-Ney(KN) 모델과 거의 동등한 성능을 보임을 확인하였습니다. 스킵-그램 특성을 사용할 때 이 모델들은 최신 순환 신경망(RNN) LM과 맞먹는 성능을 발휘하며, 두 가지 모델링 기법을 결합하면 벤치마크에서 알려진 최고의 결과를 얻을 수 있습니다. SNM의 주요 강점은 최대 엔트로피와 RNN LM 추정에 비해 계산상의 이점이 있으며, 임의의 특성을 효과적으로 결합하는 같은 유연성을 유지하면서도 $n$-그램 LM처럼 매우 큰 데이터 양으로 확장될 가능성이 높다는 점입니다.