2달 전

더 가까이 보기 전에 더 잘 보다: 세부 시각 분류를 위한 약한 감독 데이터 증강 네트워크

Tao Hu; Honggang Qi; Qingming Huang; Yan Lu
더 가까이 보기 전에 더 잘 보다: 세부 시각 분류를 위한 약한 감독 데이터 증강 네트워크
초록

데이터 증강은 일반적으로 훈련 데이터의 양을 늘리고, 과적합을 방지하며, 딥 모델의 성능을 개선하기 위해 채택됩니다. 그러나 실제로는 무작위 이미지 자르기와 같은 무작위 데이터 증강이 효율성이 낮으며 많은 제어되지 않은 배경 노이즈를 도입할 수 있습니다. 본 논문에서는 데이터 증강의 잠재력을 탐구하기 위해 약간 지도된 데이터 증강 네트워크(Weakly Supervised Data Augmentation Network, WS-DAN)를 제안합니다. 구체적으로, 각 훈련 이미지에 대해 약간 지도 학습을 통해 객체의 차별적인 부분을 나타내는 주목도 맵(attention maps)을 먼저 생성합니다. 그 다음, 이러한 주목도 맵을 안내로 이미지를 증강합니다. 이에는 주목도 자르기(attention cropping)와 주목도 드롭(attention dropping)이 포함됩니다. 제안된 WS-DAN은 두 가지 방법으로 분류 정확성을 개선합니다. 첫 번째 단계에서는 더 많은 차별적인 부분의 특징이 추출되기 때문에 이미지를 더 잘 볼 수 있습니다. 두 번째 단계에서는 주목 영역이 객체의 정확한 위치를 제공하여 모델이 객체를 더 가까이 보도록 하며, 이로 인해 성능이 더욱 향상됩니다. 일반적인 세부 시각 분류 데이터셋에서 수행한 포괄적인 실험 결과, 제안된 WS-DAN은 최신 기법들을 능가하며, 그 효과성을 입증하였습니다.