17일 전

전이 학습을 위한 시각적 표현 학습: 질감 억제를 통한 접근

Shlok Mishra, Anshul Shah, Ankan Bansal, Janit Anjaria, Jonghyun Choi, Abhinav Shrivastava, Abhishek Sharma, David Jacobs
전이 학습을 위한 시각적 표현 학습: 질감 억제를 통한 접근
초록

최근 문헌들은 CNN의 지도 학습을 통해 얻은 특징이 고수준 정보를 인코딩하기보다는 질감(texture)에 과도하게 치중할 수 있음을 보여주었다. 특히 자기지도 학습(self-supervised learning)에서는 질감과 같은 저수준 신호가 학습의 단순화 경로(shortcuts)를 제공하여 네트워크가 고수준 표현을 학습하는 데 방해가 될 수 있다. 이러한 문제를 해결하기 위해 우리는 질감을 억제한 이미지를 사용하여 학습을 보강하는 고전적인 비등방성 확산(anisotropic diffusion) 기반의 방법을 제안한다. 이 간단한 방법은 중요한 에지 정보를 유지하면서 동시에 질감을 억제하는 데 효과적이다. 실험적으로 제안한 방법이 MoCoV2 및 Jigsaw와 같은 지도 학습 및 자기지도 학습 작업에서 다양한 8개의 데이터셋(객체 탐지 및 이미지 분류)에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다. 특히 전이 학습(transfer learning) 작업에서 뛰어난 효과를 보였으며, 다섯 가지 표준 전이 학습 데이터셋에서 성능 향상을 관찰하였다. Sketch-ImageNet 데이터셋과 DTD 데이터셋에서 최대 11.49%까지의 큰 성능 향상과 함께 샐리언시 맵(saliency maps)을 활용한 추가 시각적 분석 결과는 본 방법이 더 나은 표현을 학습하고, 그 표현이 더 효과적으로 전이될 수 있도록 도움을 준다는 점을 시사한다.