13일 전

라벨 없이 비전-언어 모델 적응하기: 포괄적인 종합 조사

Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
라벨 없이 비전-언어 모델 적응하기: 포괄적인 종합 조사
초록

시각-언어 모델(Vision-Language Models, VLMs)은 다양한 작업에 걸쳐 뛰어난 일반화 능력을 보여주고 있다. 그러나 특정 하류 시나리오에 직접 적용할 경우, 작업에 특화된 적응 없이 성능이 종종 최적화되지 않는 경우가 있다. 데이터 효율성을 유지하면서 모델의 활용도를 높이기 위해 최근 연구는 레이블이 없는 데이터에 의존하지 않는 비지도 적응 방법에 점점 더 주목하고 있다. 이러한 분야에 대한 관심이 커지고 있음에도 불구하고, 비지도 VLM 적응을 전담하는 통합적이고 작업 중심의 종합적 조사가 여전히 부족한 실정이다. 이 격차를 메우기 위해 본 연구에서는 해당 분야에 대한 포괄적이고 체계적인 개요를 제시한다. 우리는 비지도 시각 데이터의 가용성과 특성에 기반하여 새로운 분류 체계를 제안하며, 기존 접근법을 네 가지 핵심 패러다임으로 분류한다: 데이터 없이 전이(Data-Free Transfer, 데이터 없음), 비지도 도메인 전이(Unsupervised Domain Transfer, 풍부한 데이터), 에피소딕 테스트 타임 적응(Episodic Test-Time Adaptation, 배치 데이터), 온라인 테스트 타임 적응(Online Test-Time Adaptation, 스트리밍 데이터). 이 프레임워크 내에서 각 패러다임과 관련된 핵심 방법론과 적응 전략을 분석함으로써, 이 분야에 대한 체계적인 이해를 도모한다. 또한 다양한 응용 분야에서 대표적인 벤치마크를 검토하고, 아직 해결되지 않은 과제 및 향후 연구를 위한 전망 있는 방향성을 제시한다. 관련 문헌을 지속적으로 업데이트하는 리포지토리는 https://github.com/tim-learn/Awesome-LabelFree-VLMs 에서 확인할 수 있다.

라벨 없이 비전-언어 모델 적응하기: 포괄적인 종합 조사 | 최신 연구 논문 | HyperAI초신경