16일 전

다중 상금 로또 티켓 가설: 무작위 가중치를 가진 네트워크를 경량화함으로써 정확한 이진 신경망 찾기

James Diffenderfer, Bhavya Kailkhura
다중 상금 로또 티켓 가설: 무작위 가중치를 가진 네트워크를 경량화함으로써 정확한 이진 신경망 찾기
초록

최근 Frankle & Carbin(2019)은 무작위 초기화된 밀집 네트워크 내부에는, 발견된 후 훈련을 통해 밀집 네트워크와 유사한 테스트 정확도에 도달할 수 있는 부분 네트워크(subnetwork)가 존재함을 보였다. 그러나 이러한 고성능 훈련 가능한 부분 네트워크를 찾는 것은 비용이 매우 높으며, 반복적인 가중치 훈련과 제거(pruning) 과정이 필요하다. 본 논문에서는 더 강력한 다중 보상 복권 티켓 가설(Multi-Prize Lottery Ticket Hypothesis)을 제안하고 이를 증명한다:충분히 과도하게 파라미터화된 무작위 가중치를 가진 신경망은 다음과 같은 여러 개의 부분 네트워크(승리 티켓, winning tickets)를 포함한다.(a) 학습된 가중치를 가진 밀집 대상 네트워크와 비슷한 정확도를 갖는다(보상 1),(b) 보상 1을 달성하기 위해 추가적인 훈련이 필요하지 않다(보상 2),(c) 극단적인 양자화(예: 이진 가중치 및/또는 활성화)에 대해 안정적이다(보상 3).이 가설은 무작위 가중치를 가진 정밀도가 높은 전체 네트워크를 단순히 제거(pruning)하고 양자화하는 방식으로, 작고 정확도가 높은 이진 신경망(binary neural networks)을 학습하는 새로운 패러다임을 제시한다. 또한 다중 보상 티켓(Multi-Prize Tickets, MPTs)을 찾는 알고리즘을 제안하고, CIFAR-10 및 ImageNet 데이터셋을 대상으로 일련의 실험을 수행하여 검증하였다. 실험 결과, 모델이 깊어지고 넓어질수록 다중 보상 티켓은 훨씬 더 큰, 가중치가 학습된 전체 정밀도 대조군과 비슷하거나 때로는 더 높은 테스트 정확도에 도달함을 확인하였다. 가중치 값 자체를 한 번도 업데이트하지 않고도, 우리의 MPT-1/32는 이진 가중치 네트워크의 새로운 최고 성능(SOTA)을 기록하였으며, CIFAR-10에서 Top-1 정확도 94.8%, ImageNet에서는 74.03%를 달성하였다. 또한 이는 각각 전체 정밀도 대조군보다 1.78%, 0.76% 높은 성능을 기록하였다. 더불어, MPT-1/1은 CIFAR-10에서 이진 신경망 분야의 SOTA Top-1 정확도 91.9%를 달성하였다. 코드 및 사전 학습된 모델은 다음 링크에서 제공된다: https://github.com/chrundle/biprop.

다중 상금 로또 티켓 가설: 무작위 가중치를 가진 네트워크를 경량화함으로써 정확한 이진 신경망 찾기 | 최신 연구 논문 | HyperAI초신경