2달 전

문맥에 민감한 토큰 인코딩을 사용한 메타-바이디렉셔널 LSTM 모델을 통한 형태소 문법 태깅

Bernd Bohnet; Ryan McDonald; Goncalo Simoes; Daniel Andor; Emily Pitler; Joshua Maynez
문맥에 민감한 토큰 인코딩을 사용한 메타-바이디렉셔널 LSTM 모델을 통한 형태소 문법 태깅
초록

신경망, 특히 순환 신경망의 발전은 품사 태깅 정확도에 큰 진보를 가져왔습니다. 이러한 모델들의 공통적인 특징 중 하나는 풍부한 초기 단어 인코딩의 존재입니다. 이 인코딩들은 일반적으로 학습된 및 사전 학습된 단어 임베딩과 함께 순환 문자 기반 표현으로 구성됩니다. 그러나 이러한 인코딩들은 단일 단어보다 넓은 맥락을 고려하지 않으며, 후속 순환 계층을 통해만 단어 또는 하위 단어 정보가 상호 작용합니다. 본 논문에서는 문장 수준의 맥락을 사용하여 초기 문자와 단어 기반 표현을 생성하는 순환 신경망 모델들을 조사합니다. 특히, 이러한 맥락에 민감한 표현들을 메타모델이 상태를 결합하도록 학습하는 동기화된 훈련을 통해 통합할 때 최적의 결과가 얻어짐을 보여줍니다. 우리는 여러 언어에서 최고 수준의 성능을 보이는 품사 및 형태소 태깅 결과를 제시합니다.