단순한 강도를 넘어서: 일반화된 시각-언어 모델을 위한 맞춤형 앙상블

사전 훈련된 시각-언어 모델(VLM)을 개방형 환경에서의 일반화 성능 향상을 위해 미세 조정하는 것은 실용적 가치가 크기 때문에 점점 더 주목받고 있다. 그러나 단일 모델에만 복잡한 알고리즘 설계에 의존할 경우, 강력한 성능을 보이는 모델이라도(예: CLIP-ViT-B/16) 성능 향상의 한계가 존재한다. 본 논문은 처음으로, 성능이 상대적으로 낮은 VLM들을 활용하여 강력한 단일 모델의 일반화 능력을 향상시키는 협업적 잠재력을 탐색한다. 긍정적인 실험 결과를 바탕으로, 우리는 사전 훈련된 VLM의 앙상블(ensemble)이라는 새로운 관점에서 일반화 문제를 접근하게 되었다. 본 연구에서는 각각 특정한 시나리오에 맞게 맞춤형으로 설계된 세 가지 앙상블 전략을 제안한다. 먼저, 사전 훈련된 VLM만 존재하는 경우, 각 모델의 신뢰도를 기반으로 로짓(logit)을 자동 조정하는 '제로샷 앙상블(Zero-shot Ensemble)'을 제안한다. 또한, 추가적인 소량의 샘플(피셔 샘플)이 존재하는 상황에서는 계산 자원의 가용성에 따라 유연하게 적용 가능한 '훈련 없이 조정하는 앙상블(Training-free and Tuning Ensemble)'을 제안한다. 제안된 앙상블 전략은 제로샷, 베이스에서 새로운 클래스로의 일반화, 그리고 데이터셋 간 일반화에 대해 평가되었으며, 새로운 최고 성능(SOTA)을 달성하였다. 특히, 본 연구는 VLM의 일반화 성능 향상을 위한 앙상블 접근법에 대한 초기 단계의 전진이라고 할 수 있다. 코드는 https://github.com/zhiheLu/Ensemble_VLM.git 에서 공개되어 있다.