17일 전

신경 아키텍처의 위상 구조가 Gradient 전파 및 모델 성능에 미치는 영향은 무엇인가?

{Radu Marculescu, Guihong Li2, Kartikeya Bhardwa}
신경 아키텍처의 위상 구조가 Gradient 전파 및 모델 성능에 미치는 영향은 무엇인가?
초록

DenseNet은 여러 컴퓨터 비전 작업에서 최고 수준의 정확도를 달성하는 연결형(skip) 연결 방식을 도입한다. 본 논문에서는 이러한 연결형 skip 연결의 구조가 그라디언트 전파와 밀접한 관련이 있으며, 이로 인해 딥신경망(DNN)의 테스트 성능이 예측 가능하게 동작함을 밝혀낸다. 이를 위해 정보가 DNN 내부를 얼마나 효과적으로 흐르는지 정량화할 수 있는 새로운 지표인 NN-Mass를 제안한다. 또한 실증적으로 NN-Mass가 덧셈형 skip 연결(즉, 잔차 또는 역잔차를 포함)을 갖는 다른 유형의 네트워크—예를 들어 ResNet, Wide-ResNet(WRN), MobileNet—에도 효과적으로 적용됨을 보여준다. 따라서 DenseNet 유사 CNN과 ResNet/WRN/MobileNet 모두에 대해, NN-Mass는 정확도가 유사하나 크기 또는 계산 요구량이 크게 다른 모델을 식별할 수 있다. MNIST, CIFAR-10, CIFAR-100, ImageNet 등 합성 및 실제 데이터셋에 대한 상세한 실험을 통해 본 연구의 통찰을 광범위하게 검증하였다. 마지막으로, 본 연구에서 제안하는 NN-Mass의 폐쇄형 해를 활용하여, 시간이 오래 걸리는 학습이나 탐색 없이도 초기화 단계에서 CIFAR-10용으로 상당히 압축된 DenseNet과 ImageNet용으로 압축된 MobileNet을 직접 설계할 수 있다.

신경 아키텍처의 위상 구조가 Gradient 전파 및 모델 성능에 미치는 영향은 무엇인가? | 최신 연구 논문 | HyperAI초신경