17일 전
일반화 성능을 효율적으로 향상시키기 위한 예리함 인식 최소화
Pierre Foret, Ariel Kleiner, Hossein Mobahi, Behnam Neyshabur

초록
오늘날 과도하게 파라미터화된 모델들에서는 훈련 손실 값이 모델의 일반화 능력에 대해 거의 보장하지 못한다. 실제로 흔히 수행되는 것처럼 훈련 손실 값만 최적화하려는 접근은 쉽게 최적의 모델 품질에 도달하지 못하게 된다. 손실 표면의 기하학적 구조와 일반화 능력 간의 관계를 이전 연구에서 밝힌 점을 계기로, 본 연구는 손실 값과 손실의 날카로움(Sharpness)을 동시에 최소화하는 새로운 효과적인 절차를 제안한다. 특히, 본 절차인 날카로움 인식 최소화(SAM, Sharpness-Aware Minimization)는 손실 값이 균일하게 낮은 이웃 영역 내에 존재하는 파라미터를 탐색한다. 이는 그라디언트 디센트를 효율적으로 수행할 수 있는 미니맥스 최적화 문제로 표현된다. 실험 결과, SAM은 다양한 벤치마크 데이터셋(CIFAR-10, CIFAR-100, ImageNet, 피넷튜닝 작업 등)과 모델에서 모델의 일반화 능력을 향상시키며, 여러 경우에서 새로운 최고 성능(SOTA)을 달성함을 보여준다. 또한 SAM은 별도로 노이즈 있는 레이블 학습을 목적으로 설계된 최첨단 기법과 비견되는 수준의 레이블 노이즈에 대한 강건성을 자연스럽게 제공함을 발견하였다. 본 연구의 코드는 \url{https://github.com/google-research/sam}에서 오픈소스로 공개한다.