2달 전

딥 프라이드 컨브넷스

Zichao Yang; Marcin Moczulski; Misha Denil; Nando de Freitas; Alex Smola; Le Song; Ziyu Wang
딥 프라이드 컨브넷스
초록

깊은 합성곱 신경망의 완전 연결 계층은 일반적으로 네트워크 매개변수의 90% 이상을 차지하며, 네트워크 매개변수를 저장하기 위해 필요한 메모리의 대부분을 소비합니다. 예측 성능을 거의 동일하게 유지하면서 매개변수의 수를 줄이는 것은 GPU나 임베디드 장치와 같은 메모리 제약 환경에서 깊은 신경망을 운영하는 데 있어 매우 중요합니다.본 논문에서는 커널 방법, 특히 단일 Fastfood 계층이 깊은 합성곱 신경망의 모든 완전 연결 계층을 대체할 수 있는 방법을 소개합니다. 이 새로운 Fastfood 계층은 합성곱 계층과 함께 끝까지 훈련될 수 있으며, 이를 통해 새로운 아키텍처인 '딥 프라이드 합성곱 신경망' (deep fried convolutional networks)을 구성할 수 있습니다. 이 아키텍처는 MNIST와 ImageNet 데이터셋에서 훈련된 합성곱 신경망의 메모리 사용량을 크게 줄이면서 예측 성능에 영향을 주지 않습니다.

딥 프라이드 컨브넷스 | 최신 연구 논문 | HyperAI초신경