2달 전
임의로 깊은 잔차 신경망을 위한 가역 아키텍처
Bo Chang; Lili Meng; Eldad Haber; Lars Ruthotto; David Begert; Elliot Holtham

초록
최근, 딥 레지듀얼 네트워크가 많은 컴퓨터 비전 및 자연어 처리 작업에서 성공적으로 적용되어 더 깊고 넓은 구조를 통해 최신 성능을 향상시키고 있습니다. 본 연구에서는 딥 레지듀얼 네트워크를 상미분방정식(ODEs)으로 해석합니다. 상미분방정식은 수학과 물리학에서 오랫동안 연구되어 왔으며, 풍부한 이론적 및 경험적 성공을 거두었습니다. 이러한 해석을 바탕으로, 우리는 딥 신경망의 안정성과 역행성을 다루는 이론적 프레임워크를 개발하고, 이론적으로 임의로 깊게 만들 수 있는 세 가지 역행성 신경망 구조를 도출하였습니다. 역행성 특성은 대부분의 은닉층 활성화 값을 저장할 필요가 없기 때문에 메모리 효율적인 구현을 가능하게 합니다. 또한 우리의 구조가 안정적이므로, 중등도의 계산 자원만으로도 더 깊은 네트워크를 학습할 수 있습니다. 우리는 이론적 분석과 경험적 결과를 모두 제공합니다. 실험 결과는 CIFAR-10, CIFAR-100 및 STL-10 데이터셋에서 여러 강력한 기준 모델에 대해 우리의 구조가 우수하거나 동등한 최신 성능을 보여주며, 그 유효성을 입증하였습니다. 더욱이, 우리는 적은 학습 데이터로 학습할 때 우리의 구조가 우수한 결과를 내는 것을 보여주었습니다.