
초록
딥 신경망은 단일 클래스를 식별하기 위해 수천 개의 대부분 이해하기 어려운 특징을 사용하며, 이 결정은 인간이 따라갈 수 없는 것이다. 우리는 미세한 이미지 분류 작업에 적용 가능한 측정 가능한 해석 가능성(measurable aspects of interpretability)을 갖춘 해석 가능한 희소성과 저차원(final decision layer)을 가지는 딥 신경망의 최종층을 제안한다. 우리는 인간이 머신러닝 모델의 결정을 이해할 수 있다는 전제가, 특징이 해석 가능하고 단일 결정에 매우 적은 수의 특징만이 사용되어야 한다는 점에 있음을 주장한다. 이를 달성하기 위해 최종층은 희소해야 하며, 특징을 해석할 수 있도록 가능하게 하기 위해 저차원이어야 한다. 이러한 특징을 가진 모델을 희소 저차원 결정(Sparse Low-Dimensional Decision, SLDD) 모델이라 부른다. 우리는 SLDD 모델이 밀도 높고 고차원의 결정층보다 국소적·전역적으로 해석이 용이함을 보이며, 경쟁적인 정확도를 유지함을 입증한다. 또한, 모델의 특징 다양성과 정확도를 향상시키는 손실 함수를 제안한다. 제안한 더 해석 가능한 SLDD 모델은 각 클래스당 50개의 특징 중 단지 5개만을 사용함으로써, 기준 모델(2048개 특징)과 비교해 네 가지 일반적인 벤치마크 데이터셋에서 97%에서 100%의 정확도를 유지한다.