
초록
이미지에서의 자기지도 학습(self-supervised learning)의 목적은 대규모 이미지 데이터셋에 대한 의미적 레이블이 필요 없는 전처리 과제(pretext tasks)를 통해 의미 있는 이미지 표현을 구축하는 것이다. 많은 전처리 과제는 이미지 변환에 대해 공변(covariant)인 표현을 도출한다. 우리는 이러한 변환에 대해 불변(invariant)이어야 한다고 주장한다. 구체적으로, 전처리 과제를 기반으로 불변 표현을 학습하는 Pretext-Invariant Representation Learning(PIRL, ‘펄’로 발음)을 제안한다. 본 연구에서는 일반적으로 사용되는 조각 퍼즐(jigsaw puzzle) 풀기 과제를 전처리 과제로 활용한다. 실험 결과, PIRL은 학습된 이미지 표현의 의미적 품질을 크게 향상시킴을 확인하였다. 제안한 방법은 여러 인기 있는 자기지도 학습 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였다. 비록 비지도 학습 방식임에도 불구하고, PIRL은 객체 탐지에 필요한 이미지 표현을 학습하는 데 있어 지도 학습 전처리보다 우수한 성능을 보였다. 종합적으로 본 연구 결과는 좋은 불변성 특성을 갖는 이미지 표현의 자기지도 학습이 매우 큰 잠재력을 지닌다는 점을 보여준다.