2달 전

RNNs에서 보조 손실을 이용한 장기 의존성 학습

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le
RNNs에서 보조 손실을 이용한 장기 의존성 학습
초록

최근 순환 신경망(RNN)의 훈련 기술이 발전했음에도 불구하고, 시퀀스에서 장기 의존성을 포착하는 것은 여전히 기본적인 도전 과제입니다. 대부분의 접근 방식은 시간을 통한 역전파(BPTT)를 사용하지만, 이는 매우 긴 시퀀스로 확장하기 어렵습니다. 본 논문에서는 원래 목적 함수에 비지도 보조 손실을 추가하여 RNN에서 장기 의존성을 포착하는 능력을 개선하는 간단한 방법을 제안합니다. 이 보조 손실은 RNN이 시퀀스에서 이전 사건을 재구성하거나 다음 사건을 예측하도록 강제함으로써, 긴 시퀀스에서도 잘잘截断的反向传播(트伦케이티드 백프로파게이션)가 가능해지고 전체 BPTT도 개선됩니다. 우리는 다양한 설정에서 우리의 방법을 평가하였으며, 시퀀스 길이가 최대 16,000인 픽셀 단위 이미지 분류와 실제 문서 분류 벤치마크를 포함합니다. 결과는 다른 경쟁 모델들, 특히 다른 순환 모델들과 크기가 유사한 트랜스포머와 비교하여 이 접근 방식의 우수한 성능과 자원 효율성을 강조합니다. 추가 분석에서는 보조 손실이 최적화와 규제에 미치는 유익한 영향 및 거의 또는 전혀 역전파가 이루어지지 않는 극단적인 사례를 밝혀냈습니다.注:在翻译“truncated backpropagation”时,我使用了“트伦케이티드 백프로파게이션”,这是该术语的音译。如果需要意译,可以考虑使用“잘라낸 역전파”或“절단된 역전파”。请根据具体需求选择合适的翻译。

RNNs에서 보조 손실을 이용한 장기 의존성 학습 | 최신 연구 논문 | HyperAI초신경