
초록
우리는 LSVRC-2010 ImageNet 학습 데이터셋에 포함된 130만 장의 고해상도 이미지를 1,000개의 서로 다른 클래스로 분류하기 위해 대규모의 깊은 합성곱 신경망을 훈련시켰다. 테스트 데이터에서 우리는 상위 1위 오류율이 39.7%, 상위 5위 오류율이 18.9%를 기록하여 이전 최고 성능 결과보다 상당히 우수한 성능을 달성했다. 이 신경망은 파라미터 수 6,000만 개, 뉴런 수 50만 개를 가진 구조로, 5개의 합성곱 층과 그 후에 오는 최대 풀링 층들, 그리고 최종적으로 1,000개의 클래스를 출력하는 소프트맥스 함수를 갖춘 두 개의 전결합 층으로 구성되어 있다. 훈련 속도를 높이기 위해 비포화(neuron) 활성화 함수를 사용하였으며, 합성곱 네트워크의 매우 효율적인 GPU 기반 구현을 활용하였다. 전결합 층에서의 과적합(overfitting)을 줄이기 위해, 매우 효과적이라는 것이 입증된 새로운 정규화 방법을 적용하였다.