2달 전
대규모 다중 작업 학습을 통한 일반적인 분산 문장 표현 학습
Sandeep Subramanian; Adam Trischler; Yoshua Bengio; Christopher J Pal

초록
최근 자연어 처리(NLP) 분야에서의 많은 성공은 대규모 텍스트에서 비지도 방식으로 학습된 단어의 분산 벡터 표현에 의해 주도되었습니다. 이러한 표현들은 일반적으로 다양한 NLP 문제에 걸쳐 단어의 일반적인 특징으로 사용됩니다. 그러나, 이 성공을 문장과 같은 단어 시퀀스의 표현 학습으로 확장하는 것은 여전히 해결되지 않은 문제입니다. 최근 연구에서는 일반적인 고정 길이 문장 표현을 학습하기 위해 다양한 학습 목표를 가진 비지도 및 지도 학습 기술을 탐구하였습니다. 본 연구에서는 여러 학습 목표를 하나의 모델에서 결합하여 문장 표현을 위한 간단하고 효과적인 다중 작업 학습 프레임워크를 제시합니다. 우리는 이 모델을 1억 개 이상의 문장으로 구성된 여러 데이터 소스와 여러 학습 목표를 통해 훈련시켰습니다. 광범위한 실험 결과는 약간 관련된 작업들 간에 단일 순환 문장 인코더를 공유함으로써 이전 방법론보다 일관된 개선이 이루어짐을 보여주고 있습니다. 또한, 전이 학습 및 저자원 환경에서 우리의 학습된 일반적 표현을 사용하여 상당한 개선을 보였음을 제시합니다.