2달 전
반복 신경망의 게이팅 메커니즘 개선
Albert Gu; Caglar Gulcehre; Tom Le Paine; Matt Hoffman; Razvan Pascanu

초록
게이팅 메커니즘은 신경망 모델에서 널리 사용되며, 이를 통해 그래디언트가 깊이 또는 시간을 통해 더 쉽게 역전파될 수 있습니다. 그러나 이들의 포화 특성은 자체적으로 문제를 야기합니다. 예를 들어, 순환 모델에서는 이러한 게이트들이 긴 시간 지연을 통해 정보를 전달하기 위해 출력값이 1에 가까워야 하는데, 이는 게이트 메커니즘이 포화 영역에서 작동하도록 요구하며, 그래디언트 기반 학습을 방해합니다. 우리는 이 문제를 해결하기 위해 표준 게이팅 메커니즘에 두 가지 시너지 효과를 발휘하는 수정 사항을 도출하였습니다. 이 수정 사항들은 구현이 쉽고 추가적인 하이퍼파라미터를 도입하지 않으며, 게이트가 포화 상태에 가까울 때 그 학습성을 개선합니다. 우리는 이러한 변경 사항들이 크로노 초기화(Chrono Initialization) 및 순서형 뉴런(Ordered Neurons)과 같은 최근 제안된 대체 게이팅 메커니즘과 어떻게 관련되어 있으며 그 성능을 개선하는지 보여드립니다. 경험적으로, 우리의 간단한 게이팅 메커니즘은 특히 장기 의존성이 포함된 경우, 합성 기억 과제, 순차적 이미지 분류, 언어 모델링 및 강화학습 등 다양한 응용 분야에서 순환 모델의 성능을 안정적으로 향상시키는 것으로 나타났습니다.