
초록
우리는 희소 학습(sparse learning)의 가능성을 시연합니다. 이는 훈련 중에 희소 가중치를 유지하면서도 밀집된 성능 수준을 달성하는 깊은 신경망(deep neural networks)의 가속화된 훈련을 의미합니다. 이를 위해 우리는 지수 평균 그래디언트(momentum)를 사용하여 오류를 효율적으로 줄이는 레이어와 가중치를 식별하는 알고리즘인 희소 모멘텀(sparse momentum)을 개발했습니다. 희소 모멘텀은 각 레이어의 평균 모멘텀 크기에 따라 제거된 가중치를 레이어 간에 재분배합니다. 레이어 내에서는 희소 모멘텀이 값이 0인 가중치의 모멘텀 크기에 따라 가중치를 증가시킵니다. 우리는 MNIST, CIFAR-10, 및 ImageNet에서 최신 기술 수준의 희소 성능을 시연하며, 다른 희소 알고리즘과 비교해 평균 오류를 각각 상대적으로 8%, 15%, 6% 감소시켰습니다. 또한, 우리는 희소 모멘텀이 밀집된 성능 수준을 안정적으로 재현하면서 최대 5.61배 더 빠른 훈련을 제공함을 보여주었습니다. 분석 결과, 제거 실험(ablations)은 모멘텀 재분배와 성장의 이점이 네트워크의 깊이와 크기와 함께 증가함을 나타냈습니다. 또한, 우리는 희소 모멘텀이 초매개변수(hyperparameters) 선택에 대해 민감하지 않다는 것을 발견하여, 이는 희소 모멘텀이 견고하고 사용하기 쉬움을 시사합니다.