2달 전

전역 공분산 풀링 네트워크의 빠른 학습을 위한 반복 행렬 제곱근 정규화

Peihua Li; Jiangtao Xie; Qilong Wang; Zilin Gao
전역 공분산 풀링 네트워크의 빠른 학습을 위한 반복 행렬 제곱근 정규화
초록

글로벌 공분산 풀링은 전통적인 1차 풀링에 비해 컨볼루션 신경망에서 놀라운 개선을 이루어냈습니다. 최근 연구에서는 행렬 제곱근 정규화가 최고 수준의 성능을 달성하는 데 핵심적인 역할을 한다는 것을 보여주었습니다. 그러나 기존 방법들은 고유값 분해(EIG)나 특이값 분해(SVD)에 크게 의존하고 있어, GPU에서의 EIG와 SVD 지원이 제한적이기 때문에 효율적인 학습에 어려움을 겪고 있습니다. 이 문제를 해결하기 위해, 우리는 빠른 end-to-end 학습을 위한 글로벌 공분산 풀링 네트워크의 반복적 행렬 제곱근 정규화 방법을 제안합니다. 우리 방법의 핵심은 루프가 포함된 유향 그래프 구조로 설계된 메타-레이어입니다. 이 메타-레이어는 사전 정규화, 결합 행렬 반복, 후보 보상이라는 세 가지 연속적인 비선형 구조 레이어로 구성되어 있습니다. 우리의 방법은 행렬 곱셈만을 포함하므로 GPU에서의 병렬 구현에 적합하여 EIG 또는 SVD 기반 방법보다 훨씬 빠릅니다. 또한, ResNet 아키텍처를 사용한 제안된 네트워크는 훨씬 적은 에포크(epoch)로 수렴할 수 있어, 네트워크 학습을 더욱 가속화시킵니다. 대규모 ImageNet 데이터셋에서 우리는 기존 방식들보다 우수한 경쟁력 있는 성능을 달성했습니다. ImageNet에서 사전 학습된 모델들을 fine-tuning함으로써, 우리는 세 가지 도전적인 세부 범주(fine-grained) 벤치마크에서 최고 수준의 결과를 설정하였습니다. 소스 코드와 네트워크 모델은 http://www.peihuali.org/iSQRT-COV 에서 제공될 예정입니다.