16일 전

MMRL: 시각-언어 모델을 위한 다중 모달 표현 학습

Yuncheng Guo, Xiaodong Gu
MMRL: 시각-언어 모델을 위한 다중 모달 표현 학습
초록

대규모 사전 학습된 시각-언어 모델(Vision-Language Models, VLMs)은 다양한 작업에 걸쳐 전이 학습의 핵심 요소로 자리 잡았다. 그러나 제한된 소수의 샘플 데이터를 활용해 이러한 모델을 적응시키는 경우 과적합이 발생하여 새로운 작업에서의 성능이 저하되는 문제가 존재한다. 이 문제를 해결하기 위해, 공유되며 학습 가능한, 모달리티에 관계없는 표현 공간을 도입하는 새로운 다중 모달 표현 학습(Multi-Modal Representation Learning, MMRL) 프레임워크를 제안한다. MMRL은 공간 토큰을 텍스트 및 이미지 표현 토큰으로 매핑함으로써 보다 효과적인 다중 모달 상호작용을 가능하게 한다. 기존의 접근 방식이 클래스 토큰의 특징만 최적화하는 데 그치는 것과 달리, MMRL은 데이터셋에 특화된 특징이 더 두드러지는 인코더의 고차원 레이어에 표현 토큰을 통합하면서, 낮은 레이어에서는 일반화된 지식을 유지한다. 학습 과정에서는 표현 토큰과 클래스 특징 모두를 최적화하며, 표현 토큰에는 학습 가능한 투영 레이어를 적용하지만, 클래스 토큰의 투영 레이어는 고정된 상태로 유지하여 사전 학습된 지식을 보존한다. 더불어, 고정된 VLM의 제로샷 특징과 클래스 특징 및 텍스트 특징을 일치시키는 정규화 항을 도입함으로써 모델의 일반화 능력을 보호한다. 추론 시에는 분리 전략을 활용하여, 기존 클래스의 경우 표현 특징과 클래스 특징을 모두 사용하지만, 새로운 작업에 대해서는 더 일반화된 지식을 유지하는 클래스 특징만을 사용한다. 15개의 다양한 데이터셋을 대상으로 수행한 광범위한 실험 결과, MMRL은 최신 기술 대비 우수한 성능을 보이며, 작업 특화 적응과 일반화 사이의 균형을 효과적으로 달성함을 입증하였다. 코드는 https://github.com/yunncheng/MMRL 에 공개되어 있다.