
초록
우리는 미리 정해진 희소성 수준을 갖는 희소 신경망 모델을 훈련하기 위한 방법인 Spartan을 제안한다. Spartan은 두 가지 기법의 조합에 기반한다: (1) 정규화된 최적 운송 문제를 통한 낮은 크기의 파라미터에 대한 소프트 top-k 마스킹과 (2) 전방 전파에서 하드 희소화를 적용한 이중 평균 기반 파라미터 업데이트. 이 구조는 탐색과 활용의 균형을 실현한다. 훈련 초기에는 학습자가 다양한 희소성 패턴을 탐색할 수 있으며, 훈련 과정에 따라 소프트 top-k 근사가 점차 날카로워지면서, 고정된 희소성 마스크에 대한 파라미터 최적화로 균형이 점차 이동한다. Spartan은 다양한 희소성 할당 정책을 수용할 수 있을 정도로 충분히 유연하며, 비구조적 희소성과 블록 구조적 희소성은 물론, 각 파라미터 비용에 대한 선형 모델을 통해 매개되는 일반적인 비용 민감한 희소성 할당도 가능하다. ImageNet-1K 분류 작업에서 Spartan은 완전히 밀집된 훈련에 비해 상대적으로 1% 미만의 정확도 손실을 초래하면서도, 95% 희소성의 ResNet-50 모델과 90% 블록 희소성의 ViT-B/16 모델을 성공적으로 구현하였다.