시각적 프롬프트로부터 의미 프록시 학습을 통한 딥 메트릭 학습에서 파라미터 효율적인 미세조정

딥 메트릭 학습(Depth Metric Learning, DML)은 기계 학습 분야에서 오랫동안 주목받아온 핵심 목표로 여겨져 왔다. 기존의 해결 방안들은 일반적인 이미지 데이터셋에서 사전 학습된 모델을 세밀하게 조정하는 데 집중해왔다. 최근 대규모 데이터셋에서 학습된 사전 학습 모델의 성공적인 발전에 힘입어, 기존에 획득한 지식을 유지하면서도 로컬 데이터 도메인의 DML 작업에 모델을 적응시키는 것이 점점 더 어려워지고 있다. 본 논문에서는 사전 학습된 모델을 DML 작업에 효율적으로 미세조정하기 위한 파라미터 효율적인 방법을 탐구한다. 특히, 사전 학습된 비전 트랜스포머(Vision Transformers, ViT) 기반의 시각적 프롬프트(Visual Prompts, VPT) 학습에 기반한 새로운 효과적인 프레임워크를 제안한다. 기존의 프록시 기반(DML) 기반의 접근 방식을 바탕으로, 입력 이미지와 ViT로부터 얻은 의미 정보를 프록시에 통합하여 보완함으로써 각 클래스에 대해 시각적 프롬프트를 최적화한다. 우리는 제안하는 의미 정보를 반영한 새로운 근사 방식이 기존의 대표성(capability)을 능가함을 실험을 통해 입증하였으며, 이는 메트릭 학습 성능 향상으로 이어진다. 다양한 실험을 통해 제안된 프레임워크가 인기 있는 DML 벤치마크에서 효과적이고 효율적임을 입증하였으며, 특히 전체 파라미터의 소수만을 조정함에도 불구하고, 최근의 최첨단 전체 미세조정 기법과 비교해 유사하거나 더 우수한 성능을 달성함을 보였다.