17일 전
그룹 이동에 대한 분포로 보다 강건한 신경망: 최악의 경우 일반화를 위한 정규화의 중요성
Shiori Sagawa, Pang Wei Koh, Tatsunori B. Hashimoto, Percy Liang

초록
과도하게 파라미터화된 신경망은 i.i.d. 테스트 세트에서 평균적으로 매우 높은 정확도를 달성할 수 있지만, 데이터의 비정상적인 그룹에서는 지속적으로 실패할 수 있다(예: 평균적으로 성립하지만 특정 그룹에서는 성립하지 않는 인과성 없는 상관관계를 학습하기 때문이다). 분포로버스트 최적화(Distributionally Robust Optimization, DRO)는 미리 정의된 그룹들의 집합에 대해 최악의 경우 훈련 손실을 최소화하는 모델을 학습할 수 있게 해준다. 그러나 우리는 과도하게 파라미터화된 신경망에 단순히 그룹 DRO를 적용하는 것이 실패함을 발견했다. 이러한 모델들은 훈련 데이터를 완벽하게 적합할 수 있으며, 평균 훈련 손실이 사라지는 어떤 모델도 이미 최악의 경우 훈련 손실도 사라지게 된다. 대신, 최악의 성능은 일부 그룹에서의 일반화 능력 부족에서 비롯된다. 그룹 DRO 모델에 더 강한 정규화 기법(일반적인 L2 규제보다 더 강한 값 또는 조기 정지)을 결합함으로써, 자연어 추론 작업과 두 가지 이미지 작업에서 최악의 그룹 정확도가 각각 10~40퍼센트포인트 향상되면서도 평균 정확도는 높은 수준을 유지할 수 있었다. 우리의 결과는 과도하게 파라미터화된 환경에서 최악의 그룹에 대한 일반화를 위해서 정규화가 중요하다는 점을 시사한다. 이는 평균 일반화에는 필요하지 않더라도 말이다. 마지막으로, 수렴 보장을 갖춘 확률적 최적화 알고리즘을 도입하여 그룹 DRO 모델을 효율적으로 학습할 수 있도록 했다.