2달 전

마스크 이미지 모델링의 어두운 비밀 밝히기

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao
마스크 이미지 모델링의 어두운 비밀 밝히기
초록

마스크 이미지 모델링(MIM)은 사전 학습으로 사용될 때 다양한 시각적 하류 작업에 효과적임이 입증되었지만, MIM이 어떻게 그리고 어디에서 작동하는지는 여전히 불분명합니다. 본 논문에서는 시각화와 실험 두 가지 관점에서 MIM을 오랜 기간 지배해온 감독된 사전 학습 모델과 비교하여 그 주요 표현 차이를 밝히고자 합니다. 시각화를 통해 우리는 MIM이 모든 층에서 훈련된 모델에 지역성 유도 편향을 가져오는 반면, 감독된 모델은 하위 층에서는 지역적으로 집중하지만 상위 층에서는 더 전역적으로 집중하는 경향이 있음을 발견하였습니다. 이는 매우 큰 수용 범위를 가진 비전 트랜스포머가 최적화되는 데 MIM이 도움을 주는 이유일 수 있습니다. MIM을 사용하면 모든 층에서 주의 머리(attention heads)의 다양성을 유지할 수 있지만, 감독된 모델의 경우 마지막 세 개 층에서 주의 머리의 다양성이 거의 사라지고, 다양성이 적어짐으로써 미세 조정(fine-tuning) 성능에 해가 될 수 있습니다. 실험 결과, MIM 모델은 의미론적 정보가 약하거나 세부적인 분류 작업 같은 기하학적 및 운동 작업에서 감독된 대응 모델보다 현저히 더 우수한 성능을 보이는 것으로 나타났습니다. 별다른 특별한 방법 없이 표준 MIM 사전 학습 SwinV2-L은 자세 추정(pose estimation) 작업에서 COCO 테스트-개발 데이터셋에서 78.9 AP, CrowdPose 데이터셋에서 78.0 AP를 달성하였으며, 깊이 추정(depth estimation) 작업에서는 NYUv2 데이터셋에서 0.287 RMSE, KITTI 데이터셋에서 1.966 RMSE를, 비디오 객체 추적(video object tracking) 작업에서는 LaSOT 데이터셋에서 70.7 SUC를 달성하였습니다. 감독된 사전 학습으로 충분히 범주가 포함된 의미론적 이해 데이터셋에서도 MIM 모델은 여전히 매우 경쟁력 있는 전송 성능을 보입니다. MIM에 대한 깊은 이해를 바탕으로, 우리 연구가 이 방향으로 새로운이고 탄탄한 연구를 자극하기를 바랍니다.