11일 전

우리는 실제로 밀집형 과도한 파라미터화를 필요로 하는가? 희소 학습에서의 실시간 과도한 파라미터화

Shiwei Liu, Lu Yin, Decebal Constantin Mocanu, Mykola Pechenizkiy
우리는 실제로 밀집형 과도한 파라미터화를 필요로 하는가? 희소 학습에서의 실시간 과도한 파라미터화
초록

본 논문에서는 밀도 높은 네트워크에 비해 비용이 큰 과도한 파라미터화를 필요로 하지 않고도 최첨단 성능을 달성할 수 있는 깊은 신경망 훈련에 대한 새로운 관점을 제안한다. 이를 위해 희소 훈련에서 '시간 내 과도한 파라미터화(In-Time Over-Parameterization, ITOP)'라는 개념을 도입한다. 무작위로 초기화된 희소 네트워크에서 출발하여 훈련 과정 중 지속적으로 희소 연결성을 탐색함으로써, 공간-시간 다양체 내에서 과도한 파라미터화를 수행할 수 있으며, 이는 희소 훈련과 밀도 높은 훈련 간의 표현력 차이를 해소한다. 또한 ITOP를 활용하여 동적 희소 훈련(Dynamic Sparse Training, DST)의 본질적 메커니즘을 분석하고, DST의 이점이 최적의 희소 연결성을 탐색할 때 시간에 걸쳐 가능한 모든 파라미터를 고려할 수 있다는 점에 기인함을 밝힌다. 훈련 과정에서 충분히 신뢰할 수 있는 파라미터들이 탐색된다면, DST는 밀도 높은 신경망을 크게 능가할 수 있다. 본 연구는 이러한 가설을 뒷받침하는 일련의 실험을 제시하며, ImageNet에서 ResNet-50을 사용하여 최첨단 수준의 희소 훈련 성능을 달성한다. 더욱 인상적인 점은, 극단적인 희소성 수준에서도 과도한 파라미터화 기반의 기존 희소 훈련 방법들에 비해 우수한 성능을 보인다는 점이다. CIFAR-100에서 훈련할 경우, 극도의 희소성(98%)에도 불구하고 밀도 높은 모델의 성능을 근사할 수 있다. 코드는 https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization 에서 확인할 수 있다.

우리는 실제로 밀집형 과도한 파라미터화를 필요로 하는가? 희소 학습에서의 실시간 과도한 파라미터화 | 최신 연구 논문 | HyperAI초신경