8일 전
스파스 훈련을 위한 데드트루 그래디언트와 소프트 스레셔닝만으로 충분한가?
Antoine Vanderschueren, Christophe De Vleeschouwer

초록
신경망 학습 중 가중치를 0으로 설정하는 것은 추론 시 계산 복잡도를 줄이는 데 도움이 된다. 학습 과정에서 급격한 가중치 불연속성을 초래하지 않으면서 네트워크 내에서 점진적으로 희소성 비율을 높이기 위해, 본 연구는 소프트 임계치(sot-thresholding)와 직통 그래디언트 추정(straight-through gradient estimation)을 결합하여, 0으로 설정된 가중치의 원본(즉, 임계치 적용 전) 버전을 업데이트한다. 본 방법은 직통/소프트 임계치/희소 학습의 약자인 ST-3로 명명되었으며, 단일 학습 사이클 내에서 희소성 비율을 점진적으로 증가시키는 상황에서 정확도-희소성 및 정확도-FLOPS 간의 트레이드오프 측면에서 최고 수준의 성능을 달성한다. 특히, 단순한 구조임에도 불구하고 ST-3는 미분 가능 형식을 채택하거나 생물학적 신경재생 원리를 기반으로 한 최신 방법들과 유리하게 비교된다. 이는 효과적인 희소화를 위한 핵심 요소가, 희소성 비율을 점진적으로 증가시키는 과정에서 가중치가 0 상태를 매끄럽게 통과할 수 있도록 자유롭게 진화할 수 있는 능력에 있음을 시사한다. 소스 코드 및 가중치는 https://github.com/vanderschuea/stthree 에서 제공된다.