2달 전

집중적 계층 RNN을 이용한 조건부 시퀀스 처리

Nan Rosemary Ke; Konrad Zolna; Alessandro Sordoni; Zhouhan Lin; Adam Trischler; Yoshua Bengio; Joelle Pineau; Laurent Charlin; Chris Pal
집중적 계층 RNN을 이용한 조건부 시퀀스 처리
초록

주목 메커니즘을 갖춘 순환 신경망(RNNs)은 많은 시퀀스 처리 작업에서 최고 수준의 결과를 얻었습니다. 이러한 모델 대부분은 전체 시퀀스를 살펴보고 각 토큰에 독립적으로 가중치를 할당하는 간단한 형태의 인코더와 주목 메커니즘을 사용합니다. 우리는 시퀀스 모델링 작업에 필요한 입력의 핵심 부분에 집중할 수 있는 RNN 인코더를 위한 메커니즘을 제시합니다. 이를 다층 조건부 시퀀스 인코더로 공식화하여 한 번에 하나의 토큰을 읽고 해당 토큰이 문맥 또는 질문과 관련이 있는지 여부에 대한 이산적인 결정을 내릴 수 있습니다. 이산 게이팅 메커니즘은 문맥 임베딩과 현재 은닉 상태를 입력으로 받아 위 계층으로의 정보 흐름을 제어합니다. 우리는 정책 경사 방법을 사용하여 이를 학습시킵니다. 우리는 다양한 특성을 가진 여러 유형의 작업에서 이 방법을 평가합니다. 먼저, 일반화 능력을 평가하고 게이트의 동작을 더 통제된 환경에서 탐색할 수 있는 합성 작업에서 이 방법을 평가합니다. 그런 다음, 어려운 MS MARCO 및 SearchQA 작업과 같은 대규모 질문-답변 작업에서 이 접근 방식을 평가합니다. 우리의 모델은 기존 연구와 베이스라인보다 두 작업 모두에서 일관된 개선점을 보였습니다. 또한, 합성 작업에서는 베이스라인보다 상당히 더 우수한 일반화 능력을 보였습니다.