MixPro: MaskMix 및 진전적 주의 레이블링을 사용한 비전 트랜스포머 데이터 증강

최근 제안된 데이터 증강 방법인 TransMix는 주의 라벨(attention labels)을 사용하여 시각 변환기(Vision Transformers, ViT)의 강건성과 성능 향상을 도모합니다. 그러나 TransMix는 두 가지 측면에서 부족한 점이 있습니다: 1) TransMix의 이미지 자르기 방법이 ViT에 적합하지 않을 수 있습니다. 2) 학습 초기 단계에서 모델은 신뢰할 수 없는 주의 맵(attention maps)을 생성합니다. TransMix는 이러한 신뢰할 수 없는 주의 맵을 이용하여 혼합된 주의 라벨(mixed attention labels)을 계산하는데, 이는 모델에 영향을 미칠 수 있습니다.위와 같은 문제를 해결하기 위해, 우리는 이미지 공간과 라벨 공간 각각에서 MaskMix와 점진적 주의 라벨링(Progressive Attention Labeling, PAL)을 제안합니다. 구체적으로, 이미지 공간 관점에서는 패치 형태의 격자 마스크(patch-like grid mask)를 기반으로 두 개의 이미지를 혼합하는 MaskMix를 설계하였습니다. 특히, 각 마스크 패치의 크기는 조정 가능하며 이미지 패치 크기의 배수로 설정되어, 각 이미지 패치가 하나의 이미지에서만 유래하고 더 많은 전역 내용(global contents)을 포함하도록 보장합니다.라벨 공간 관점에서는 PAL을 설계하여, 혼합된 주의 라벨(mixed attention label)의 주의 가중치(attention weights)를 동적으로 재가중(re-weight)하는 점진적 요인(progressive factor)을 활용합니다. 마지막으로, 우리는 MaskMix와 Progressive Attention Labeling을 결합하여 새로운 데이터 증강 방법인 MixPro를 제안합니다. 실험 결과, MixPro는 ImageNet 분류 작업에서 다양한 ViT 기반 모델들의 성능 향상에 기여함을 확인할 수 있었습니다(DeiT-T 기준 300 에폭(epoch) 동안 73.8% top-1 정확도). 또한 ImageNet에서 MixPro로 사전 학습(pre-trained)된 ViT 기반 모델들은 의미 분할(semantic segmentation), 객체 검출(object detection), 인스턴스 분할(instance segmentation) 등의 작업에서도 더 우수한 전이 능력(transferability)을 보였습니다.더 나아가, 여러 벤치마크(benchmarks)에서 TransMix보다 MixPro가 더 강한 강건성(robustness)을 보임을 입증하였습니다. 코드는 https://github.com/fistyee/MixPro에서 제공됩니다.