3달 전

로또 티켓 가설: 희소하고 훈련 가능한 신경망 찾기

{Michael Carbin Jonathan Frankle}

초록

신경망 절단 기법은 훈련된 네트워크의 파라미터 수를 90% 이상 감소시켜 저장 공간 요구량을 줄이고 추론 시 계산 성능을 향상시키면서 정확도를 저하시키지 않는다. 그러나 현재까지의 경험에 따르면, 절단을 통해 생성된 희소 구조는 초기 상태에서 훈련하기가 어렵다. 이는 훈련 성능을 개선하는 데에도 동일하게 기여할 수 있을 것이다. 우리는 일반적인 절단 기법이 초기화가 잘 이루어진 하위 네트워크를 자연스럽게 드러낸다는 것을 발견했다. 이러한 결과를 바탕으로 우리는 '로또 티켓 가설(Lottery Ticket Hypothesis)'을 제안한다. 즉, 밀집된, 무작위 초기화된 순전파 네트워크 내에는, 고립된 상태에서 훈련했을 때 원래 네트워크와 유사한 정확도를 유사한 반복 횟수 내에 달성할 수 있는 하위 네트워크(“당첨 티켓”)가 존재한다. 우리가 발견한 당첨 티켓은 초기화 로또에 당첨된 것이다. 그들의 연결은 훈련을 특히 효과적으로 만들 수 있는 초기 가중치를 가지고 있다. 본 연구에서는 당첨 티켓을 식별하는 알고리즘을 제시하고, 이 가설과 이러한 우연한 초기화의 중요성을 뒷받침하는 일련의 실험을 수행하였다. 우리는 MNIST 및 CIFAR10에 대한 여러 완전 연결형 및 합성곱 순전파 아키텍처에서, 크기가 원래 네트워크의 10~20% 미만인 당첨 티켓을 일관되게 발견하였다. 이 크기 이상의 당첨 티켓은 원래 네트워크보다 더 빠르게 학습하며, 높은 테스트 정확도에 도달함을 확인하였다.