HyperAI초신경
19시간 전

MoCa: 모달리티 인식 연속 사전 학습이 더 나은 양방향 다중 모달 임베딩을 만듭니다

Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou
MoCa: 모달리티 인식 연속 사전 학습이 더 나은 양방향 다중 모달 임베딩을 만듭니다
초록

다중 모드 임베딩 모델은 인과적 비전 언어 모델(Vision Language Models, VLMs)을 기반으로 다양한 작업에서 유망한 성능을 보여주고 있습니다. 그러나 현재 접근 방식은 세 가지 주요 제약 조건에 직면해 있습니다: VLM 백본에서 사용되는 인과적 어텐션이 임베딩 작업에 최적이지 않다는 점; 대조 학습을 위한 고품질 라벨링된 쌍 데이터에 의존함으로써 발생하는 확장성 문제; 그리고 훈련 목표와 데이터의 다양성이 부족하다는 점입니다. 이러한 문제를 해결하기 위해 우리는 MoCa라는 두 단계 프레임워크를 제안합니다. 이 프레임워크는事前訓練된 VLMs를 효과적인 양방향 다중 모드 임베딩 모델로 변환합니다. 첫 번째 단계인 '모달리티 인식 연속 사전 학습(Modality-aware Continual Pre-training)'에서는 중복된 텍스트와 이미지 입력을 동시에 노이즈 제거하는 공동 재구성 목표(joint reconstruction objective)를 도입하여 양방향 문맥 인식 추론을 강화합니다. 두 번째 단계인 '다양한 대조 미세 조정(Heterogeneous Contrastive Fine-tuning)'에서는 간단한 이미지-캡션 쌍 이상의 다양한 의미론적으로 풍부한 다중 모드 데이터를 활용하여 일반화 및 정렬성을 개선합니다. 우리의 방법은 연속 사전 학습을 통해 양방향 어텐션을 도입하고, 공동 재구성 목표를 통해 대규모 비라벨 데이터셋에서도 효과적으로 확장되며, 다양한 다중 모드 데이터를 활용하여 표현의 견고성을 향상시키는 것으로 이러한 제약 조건들을 해결합니다. 실험 결과, MoCa는 MMEB 및 ViDoRe-v2 벤치마크에서 일관된 성능 개선을 보여주며 새로운 최신 결과(state-of-the-art results)를 달성하였습니다. 또한 MMEB에서 모델 크기와 훈련 데이터 모두에 대해 강력한 확장성을 나타냈습니다. 注释: - "Modality-aware Continual Pre-training" 和 "Heterogeneous Contrastive Fine-tuning" 这两个术语在韩文中保留了英文形式,因为它们是特定的技术名词,直接翻译可能会导致理解上的困难。 - "state-of-the-art results" 也保留了英文形式,这是科技文献中常用的表达方式。 为了确保翻译的准确性,我将上述注释中的中文部分删除,并对一些细节进行了调整: 주석: - "Modality-aware Continual Pre-training"과 "Heterogeneous Contrastive Fine-tuning"이라는 용어는 특정 기술 용어이므로 영문 형태로 유지되었습니다. 직접 번역하면 이해하기 어렵기 때문입니다. - "state-of-the-art results" 역시 영문 형태로 유지되었습니다. 이는 과학 기술 문헌에서 자주 사용되는 표현 방식입니다.