AC/DC: 심층 신경망의 교대 압축/압축 해제 학습

심층 신경망(DNN)의 증가하는 계산 요구량으로 인해, 정확도를 유지하면서도 희소한(DNN) 모델을 확보하는 데 대한 관심이 높아지고 있다. 최근 연구들은 DNN 가중치를 훈련 중에도 가능한 한 희소하게 유지함으로써 계산 비용을 줄이는 더 어려운 상황인 '희소 훈련(sparse training)'에 초점을 맞추고 있다. 기존의 희소 훈련 방법은 종종 경험적 접근을 취하며, 밀집(dense) 기준 모델에 비해 정확도가 낮을 수 있다. 본 논문에서는 심층 신경망의 교대 압축/해압축(Alternating Compressed/DeCompressed, AC/DC) 훈련이라는 일반적인 접근법을 제안하고, 알고리즘의 변형에 대해 수렴성을 입증하며, 유사한 계산 자원 예산 내에서 기존의 희소 훈련 방법보다 더 높은 정확도를 달성함을 보여준다. 특히 고도의 희소성 수준에서도, 정확한 사전 훈련된 밀집 모델에 의존하는 기존 방법들을 초월하는 성능을 보인다. AC/DC의 중요한 특성은, 밀집 모델과 희소 모델을 동시에 훈련할 수 있다는 점이다. 이로 인해 훈련 과정의 최종 단계에서 정확도가 높은 희소-밀집 모델 쌍을 얻을 수 있다. 이는 실용적인 측면에서 자원 제약 환경에서 배포할 때 전체 훈련 프로세스를 다시 수행하지 않고도 압축된 버전을 활용할 수 있도록 해주며, 동시에 밀집 모델과 압축 모델 간의 정확도 차이에 대한 통찰을 제공한다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/IST-DASLab/ACDC.