
초록
순환 신경망(RNNs)은 언어 모델링과 순차적 예측에 유용한 신경망 구조 중 중요한 클래스입니다. 그러나 RNN의 최적화는 피드포워드 신경망에 비해 더 어려운 것으로 알려져 있습니다. 이 문제를 해결하기 위해 문헌에서 여러 기술이 제안되었습니다. 본 논문에서는 드롭아웃을 활용하여 이 목표를 달성하는 간단한 기술인 형제 드롭아웃(fraternal dropout)을 제안합니다. 구체적으로, 두 개의 동일한 RNN(매개변수를 공유함)을 서로 다른 드롭아웃 마스크로 훈련시키면서 그들의 (소프트맥스 전) 예측값 사이의 차이를 최소화하는 방법을 제안합니다. 이렇게 함으로써 우리의 정규화는 RNN의 표현이 드롭아웃 마스크에 불변하도록 유도하여 견고성을 높입니다. 우리는 우리의 정규화 항이 훈련 단계와 추론 단계에서 드롭아웃의 차이로 인한 간극을 해소하는 것으로 알려진 기대선형 드롭아웃 목적 함수(expectation-linear dropout objective)보다 상위 경계에 있음을 보여줍니다. 또한, Penn Treebank과 Wikitext-2라는 두 벤치마크 데이터셋에서 시퀀스 모델링 작업에서 최상의 결과를 얻었음을 평가하였습니다. 우리는 또한 우리의 접근법이 이미지 캡셔닝(Microsoft COCO) 및 반감독 학습(CIFAR-10) 작업에서도 성능 향상을 크게 이끌어내는 것을 보여주었습니다.