18일 전

하드 예제에 대한 처벌은 하지만 지나치게 하지 않기: 세부 시각 분류를 위한 강력한 베이스라인

{Yi Yang, Xiaohan Wang, Linchao Zhu, Yuanzhi Liang}
초록

정교한 시각 분류(Fine-Grained Visual Classification, FGVC) 분야에서 상당한 진전이 이루어졌음에도 불구하고, 여전히 심각한 과적합(overfitting) 문제가 모델의 일반화 능력을 저해하고 있다. 최근 연구에 따르면, 학습 데이터셋 내의 어려운 샘플(hard samples)은 쉽게 적합(fit)되지만, 대부분의 기존 FGVC 방법들은 테스트 데이터셋 내의 일부 어려운 예시를 제대로 분류하지 못한다. 그 이유는 모델이 학습 데이터셋 내의 어려운 샘플에 과적합되면서, 테스트 데이터셋에서 보이지 않는 새로운 예시에 대한 일반화 능력을 학습하지 못하기 때문이다. 본 논문에서는 이러한 어려운 샘플을 적절히 조절하는 중간 정도의 어려운 샘플 조절(Moderate Hard Example Modulation, MHEM) 전략을 제안한다. MHEM은 모델이 어려운 샘플에 과적합되는 것을 억제하고, 더 나은 일반화 능력과 구분 능력을 제공한다. 먼저, 세 가지 조건을 도입하여 조절된 손실 함수의 일반형을 제시한다. 다음으로, 이 손실 함수를 구체화하고 FGVC를 위한 강력한 베이스라인을 제시한다. 이 베이스라인을 사용하면 단순한 백본(backbone) 모델의 성능도 크게 향상되어 최근의 최첨단 방법들과 비교 가능한 수준에 도달할 수 있다. 또한, 제안된 베이스라인이 기존 방법들에 쉽게 통합 가능하며, 기존 방법들의 구분 능력을 더욱 강화할 수 있음을 보여준다. 본 베이스라인을 활용하여 CUB-200-2011, Stanford Cars, FGVC-Aircraft 등 세 가지 대표적인 FGVC 데이터셋에서 일관된 성능 향상을 달성하였다. 본 연구에서 제안한 중간 정도의 어려운 샘플 조절 아이디어가 향후 더 효과적인 정교한 시각 인식 기술 개발에 기여하기를 기대한다.

하드 예제에 대한 처벌은 하지만 지나치게 하지 않기: 세부 시각 분류를 위한 강력한 베이스라인 | 최신 연구 논문 | HyperAI초신경