17일 전

AutoDropout: 깊은 네트워크를 정규화하기 위한 드롭아웃 패턴 학습

Hieu Pham, Quoc V. Le
AutoDropout: 깊은 네트워크를 정규화하기 위한 드롭아웃 패턴 학습
초록

신경망은 일반적으로 과도하게 파라미터화되어 있어 강력한 정규화 기법의 이점을 누릴 수 있다. 기존의 정규화 방법, 예를 들어 Dropout이나 가중치 감쇠(weight decay)는 네트워크의 입력과 은닉 상태의 구조를 활용하지 못한다. 그 결과, 이러한 기존 방법은 SpatialDropout이나 DropBlock과 같이 구조를 활용하는 방법보다 효과가 떨어진다. SpatialDropout과 DropBlock은 은닉 상태 내 특정 연속된 영역의 값을 무작위로 제거하고 0으로 설정하는 방식으로 작동한다. 비록 Dropout 영역의 위치는 무작위이지만, SpatialDropout과 DropBlock의 패턴은 수동으로 설계되어 고정되어 있다. 본 연구에서는 이러한 Dropout 패턴을 학습하는 방법을 제안한다. 제안한 방법에서는 컨트롤러가 대상 네트워크(예: ConvNet 또는 Transformer)의 각 채널과 레이어마다 Dropout 패턴을 자동으로 생성하도록 학습한다. 이후 대상 네트워크는 생성된 Dropout 패턴을 적용하여 학습되며, 그 결과로 얻어진 검증 성능이 컨트롤러의 학습 신호로 활용된다. 실험 결과, 본 방법은 CIFAR-10 및 ImageNet에서의 이미지 인식, Penn Treebank 및 WikiText-2에서의 언어 모델링 모두에 효과적으로 작동함을 보였다. 또한 학습된 Dropout 패턴은 다른 작업과 데이터셋으로도 전이 가능하며, 예를 들어 Penn Treebank에서 학습한 언어 모델을 WMT 2014의 영어-프랑스어 번역 작업으로 전이하는 데에도 성공적으로 활용되었다. 본 연구의 코드는 공개될 예정이다.

AutoDropout: 깊은 네트워크를 정규화하기 위한 드롭아웃 패턴 학습 | 최신 연구 논문 | HyperAI초신경