RandAugment: 검색 공간을 축소한 실용적인 자동 데이터 증강 방법

최근 연구들은 데이터 증강이 딥러닝 모델의 일반화 성능을 크게 향상시킬 수 있음을 보여주었다. 특히 자동화된 증강 전략은 이미지 분류 및 객체 탐지 분야에서 최고 성능을 달성하고 있다. 이러한 전략들은 검증 정확도 향상을 위해 최적화되었지만, 반면에 반감독 학습에서 또한 최고 성능을 기록하며 이미지의 일반적인 왜곡에 대한 내성도 향상시키는 효과를 보였다. 이러한 방법의 대규모 적용을 방해하는 주요 장애물은 별도의 탐색 단계가 필요하다는 점이다. 이는 학습 복잡성을 증가시키고, 계산 비용을 크게 증가시킬 수 있다. 또한 별도의 탐색 단계로 인해 모델 크기나 데이터셋 크기에 따라 정규화 강도를 동적으로 조정할 수 없다는 한계가 있다. 일반적으로 자동화된 증강 정책은 소규모 모델과 소규모 데이터셋을 사용해 탐색한 후, 이를 대규모 모델 학습에 그대로 적용한다. 본 연구에서는 이러한 두 가지 장애물을 모두 제거한다. RandAugment는 탐색 공간을 크게 축소하여, 별도의 대체 작업 없이 목표 작업에서 직접 학습이 가능하다. 게다가 파라미터화된 구조 덕분에 모델 크기나 데이터셋 크기에 따라 정규화 강도를 유연하게 조정할 수 있다. RandAugment는 다양한 작업과 데이터셋에 통합적으로 적용 가능하며, 출시 직후부터 CIFAR-10/100, SVHN, ImageNet에서 이전의 모든 자동 증강 접근법을 동등하거나 초월하는 성능을 보인다. ImageNet 데이터셋에서는 85.0%의 정확도를 달성하여, 이전 최고 성능보다 0.6% 향상되었으며, 기존 증강 기법 대비 1.0% 향상되었다. 객체 탐지 작업에서는 기준 증강 기법 대비 1.0~1.3%의 성능 향상을 기록했으며, COCO에서 AutoAugment와 mAP 기준 0.3% 이내로 근접하였다. 마지막으로, 해석 가능한 하이퍼파라미터를 갖추고 있어 모델 크기와 데이터셋 크기가 달라질 때 데이터 증강의 역할을 탐구하는 데에도 유용하게 활용할 수 있다. 코드는 온라인에서 공개되어 있다.