8일 전

Jigsaw-ViT: 비전 트랜스포머에서 조각 퍼즐 학습하기

Yingyi Chen, Xi Shen, Yahui Liu, Qinghua Tao, Johan A.K. Suykens
Jigsaw-ViT: 비전 트랜스포머에서 조각 퍼즐 학습하기
초록

비전 트랜스포머(Vision Transformer, ViT)가 다양한 컴퓨터 비전 작업에서 성공을 거두면서, 이와 같은 컨볼루션 없는 네트워크의 활용은 점점 더 확산되고 있다. ViT가 이미지 패치를 처리한다는 점은, 무작위로 섞인 순차적 이미지 패치를 원래의 자연스러운 형태로 재정렬하는 것을 목표로 하는 고전적인 자기지도 학습(task)인 조각 퍼즐 해결 문제와 관련이 있을 수 있다. 비록 간단한 문제이지만, 조각 퍼즐 해결은 컨볼루션 신경망(Convolutional Neural Networks, CNNs)을 활용해 다양한 작업에 유용함이 입증되었으며, 예를 들어 자기지도 특징 표현 학습, 도메인 일반화, 미세 분류 등이 있다.본 논문에서는 이미지 분류를 위한 ViT에 대해 조각 퍼즐 해결을 자기지도 보조 손실로 활용하는 방법을 탐구하며, 이를 Jigsaw-ViT라고 명명한다. 우리는 두 가지 수정을 통해 Jigsaw-ViT가 표준 ViT보다 우수한 성능을 발휘할 수 있음을 보여준다. 즉, 위치 임베딩을 제거하고 패치를 무작위로 마스킹하는 것이다. 이는 간단한 전략임에도 불구하고, Jigsaw-ViT가 표준 ViT에 비해 일반화 능력과 강건성(robustness)을 동시에 향상시킬 수 있음을 발견하였다. 이는 보통 상호 보완적인 관계에 있는 두 성능 지표를 동시에 개선하는 데 의미가 있다. 실험적으로, ImageNet에서의 대규모 이미지 분류 작업에서 Jigsaw-ViT는 표준 ViT보다 더 우수한 일반화 성능을 보임을 입증하였다. 또한, 보조 작업은 Animal-10N, Food-101N, Clothing1M에서 노이즈가 포함된 레이블에 대한 강건성과 적대적 예시(adversarial examples)에 대한 저항성도 향상시켰다. 본 연구의 구현 코드는 다음 URL에서 공개되어 있다: https://yingyichen-cyy.github.io/Jigsaw-ViT/.