AlignMixup: 정렬된 특징을 보간함으로써 표현력 향상하기

Mixup는 입력 공간 또는 특징 공간에서 두 개 이상의 예시 간에 보간(interpolation)을 수행하고, 해당 타깃 레이블 간에도 보간을 수행하는 강력한 데이터 증강 기법이다. 최근의 많은 Mixup 기법들은 두 개 이상의 객체를 한 이미지에 잘라 붙이는 방식에 초점을 맞추고 있으며, 이는 보간보다는 처리 효율성에 더 가까운 접근이다. 그러나 이미지를 가장 효과적으로 보간하는 방법에 대해서는 아직 명확한 정의가 부족하다. 이러한 맥락에서 Mixup는 자동에코더(autoencoder)와 연결될 수 있는데, 자동에코더는 종종 '좋은 보간'을 수행하기 때문이다. 예를 들어, 하나의 이미지가 다른 이미지로 연속적으로 변형되는 이미지를 생성하는 등이다.본 연구에서는 보간 관점에서 Mixup를 다시 검토하고, 특징 공간에서 두 이미지를 기하학적으로 정렬하는 AlignMix를 제안한다. 이 대응 관계를 통해 한 쌍의 특징은 그 위치를 유지한 채로 다른 쌍의 특징 간에 보간이 가능하다. 흥미롭게도, 이는 한 이미지의 기하학적 구조 또는 자세(pose)를 대부분 유지하면서 다른 이미지의 텍스처(texture)를 취하는 상황을 만들어내며, 이는 스타일 전이(style transfer)와 연결된다. 더 나아가, 우리는 자동에코더가 복원된 이미지를 분류기(분류 모델)가 결코 보지 않더라도, 여전히 표현 학습(representation learning)을 향상시킬 수 있음을 보여준다. AlignMix는 다섯 가지 다른 벤치마크에서 최신 기술을 능가하는 성능을 보였다.