우리는 실제로 밀집형 과도한 파라미터화를 필요로 하는가? 희소 학습에서의 실시간 과도한 파라미터화

본 논문에서는 밀도 높은 네트워크에 비해 비용이 큰 과도한 파라미터화를 필요로 하지 않고도 최첨단 성능을 달성할 수 있는 깊은 신경망 훈련에 대한 새로운 관점을 제안한다. 이를 위해 희소 훈련에서 '시간 내 과도한 파라미터화(In-Time Over-Parameterization, ITOP)'라는 개념을 도입한다. 무작위로 초기화된 희소 네트워크에서 출발하여 훈련 과정 중 지속적으로 희소 연결성을 탐색함으로써, 공간-시간 다양체 내에서 과도한 파라미터화를 수행할 수 있으며, 이는 희소 훈련과 밀도 높은 훈련 간의 표현력 차이를 해소한다. 또한 ITOP를 활용하여 동적 희소 훈련(Dynamic Sparse Training, DST)의 본질적 메커니즘을 분석하고, DST의 이점이 최적의 희소 연결성을 탐색할 때 시간에 걸쳐 가능한 모든 파라미터를 고려할 수 있다는 점에 기인함을 밝힌다. 훈련 과정에서 충분히 신뢰할 수 있는 파라미터들이 탐색된다면, DST는 밀도 높은 신경망을 크게 능가할 수 있다. 본 연구는 이러한 가설을 뒷받침하는 일련의 실험을 제시하며, ImageNet에서 ResNet-50을 사용하여 최첨단 수준의 희소 훈련 성능을 달성한다. 더욱 인상적인 점은, 극단적인 희소성 수준에서도 과도한 파라미터화 기반의 기존 희소 훈련 방법들에 비해 우수한 성능을 보인다는 점이다. CIFAR-100에서 훈련할 경우, 극도의 희소성(98%)에도 불구하고 밀도 높은 모델의 성능을 근사할 수 있다. 코드는 https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization 에서 확인할 수 있다.