17일 전
전이 학습을 위한 시각적 표현 학습: 질감 억제를 통한 접근
Shlok Mishra, Anshul Shah, Ankan Bansal, Janit Anjaria, Jonghyun Choi, Abhinav Shrivastava, Abhishek Sharma, David Jacobs

초록
최근 문헌들은 CNN의 지도 학습을 통해 얻은 특징이 고수준 정보를 인코딩하기보다는 질감(texture)에 과도하게 치중할 수 있음을 보여주었다. 특히 자기지도 학습(self-supervised learning)에서는 질감과 같은 저수준 신호가 학습의 단순화 경로(shortcuts)를 제공하여 네트워크가 고수준 표현을 학습하는 데 방해가 될 수 있다. 이러한 문제를 해결하기 위해 우리는 질감을 억제한 이미지를 사용하여 학습을 보강하는 고전적인 비등방성 확산(anisotropic diffusion) 기반의 방법을 제안한다. 이 간단한 방법은 중요한 에지 정보를 유지하면서 동시에 질감을 억제하는 데 효과적이다. 실험적으로 제안한 방법이 MoCoV2 및 Jigsaw와 같은 지도 학습 및 자기지도 학습 작업에서 다양한 8개의 데이터셋(객체 탐지 및 이미지 분류)에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다. 특히 전이 학습(transfer learning) 작업에서 뛰어난 효과를 보였으며, 다섯 가지 표준 전이 학습 데이터셋에서 성능 향상을 관찰하였다. Sketch-ImageNet 데이터셋과 DTD 데이터셋에서 최대 11.49%까지의 큰 성능 향상과 함께 샐리언시 맵(saliency maps)을 활용한 추가 시각적 분석 결과는 본 방법이 더 나은 표현을 학습하고, 그 표현이 더 효과적으로 전이될 수 있도록 도움을 준다는 점을 시사한다.