2달 전

Mixup 훈련에 관하여: 딥 뉴럴 네트워크의 개선된 캘리브레이션과 예측 불확실성

Sunil Thulasidasan; Gopinath Chennupati; Jeff Bilmes; Tanmoy Bhattacharya; Sarah Michalak
Mixup 훈련에 관하여: 딥 뉴럴 네트워크의 개선된 캘리브레이션과 예측 불확실성
초록

Mixup~\cite{zhang2017mixup}은 최근 제안된 딥 뉴럴 네트워크 훈련 방법으로, 훈련 중에 이미지와 해당 라벨의 임의 쌍을 볼록 조합하여 추가 샘플을 생성합니다. 구현이 간단하지만, 이미지 분류를 위한 데이터 증강 방법으로 매우 효과적이라는 것이 입증되었습니다: Mixup으로 훈련된 DNNs는 여러 이미지 분류 벤치마크에서 분류 성능에 눈에 띄는 개선을 보입니다. 본 연구에서는 이전까지 다루어지지 않았던 Mixup 훈련의 한 측면 -- Mixup으로 훈련된 모델의 교정(calibration)과 예측 불확실성 -- 을 논의합니다. 우리는 Mixup으로 훈련된 DNNs가 일반적인 방식으로 훈련된 DNNs보다 상당히 더 잘 교정되어 있다는 것을 발견했습니다. 즉, 예측된 소프트맥스 점수가 실제 올바른 예측 확률을 더욱 잘 나타냅니다. 우리는 여러 이미지 분류 아키텍처와 데이터셋(대규모 데이터셋인 ImageNet 포함)에서 실험을 수행하고 이러한 결과가 일관되게 나타난다는 것을 확인했습니다. 또한, 단순히 특징(feature)만 혼합하는 것은 같은 수준의 교정 효과를 가져오지 못하며, Mixup 훈련에서의 라벨 스무딩(label smoothing)이 교정 개선에 중요한 역할을 한다는 것을 발견했습니다. 마지막으로, 우리는 Mixup로 훈련된 DNNs가 분포 외(out-of-distribution) 데이터와 무작위 노이즈(random-noise) 데이터에서 과신한 예측에 덜 취약하다는 것을 관찰했습니다. 우리는 신경망에서 일반적으로 관찰되는 과신 현상, 심지어 분포 내(in-distribution) 데이터에서도 그러한 현상이 하드 라벨(hard labels)로 훈련하는 결과일 가능성을 제시하며, 예측 불확실성이 중요한 문제인 분류 작업에서는 Mixup을 활용해야 할 필요성을 강조합니다.

Mixup 훈련에 관하여: 딥 뉴럴 네트워크의 개선된 캘리브레이션과 예측 불확실성 | 최신 연구 논문 | HyperAI초신경