17일 전
MegaPairs: 유니버설 다중모달 검색을 위한 대량 데이터 합성
Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong

초록
다양한 모달리티 검색에 대한 수요가 급격히 증가하고 있음에도 불구하고, 이 분야의 발전은 훈련 데이터 부족으로 인해 심각하게 제한되고 있다. 본 논문에서는 비전-언어 모델(VLMs)과 개방형 이미지 코퍼스를 활용하여 데이터를 합성하는 새로운 방법인 MegaPairs를 제안한다. 또한 이 방법을 기반으로 생성된 대규모 합성 데이터셋을 제시한다. 실증 분석 결과, MegaPairs는 고품질의 데이터를 생성함으로써, 기존 데이터셋에서 70배 더 많은 데이터로 훈련된 기준 모델보다 훨씬 뛰어난 성능을 보이는 다중 모달리티 검색 모델을 가능하게 한다. 더욱이 MegaPairs는 일반적인 이미지 코퍼스와 오픈소스 VLMs에만 의존하므로 확장성이 뛰어나며, 지속적인 성능 향상이 가능하다. 현재 단계에서 우리는 2,600만 개 이상의 훈련 인스턴스를 생성하고, 다양한 크기의 모델들을 이 데이터로 훈련시켰다. 이러한 새로운 모델들은 4개의 대표적인 복합 이미지 검색(CIR) 벤치마크에서 최신 기준의 제로샷 성능을 달성하였으며, MMEB가 제공하는 36개 데이터셋에서 종합적으로 최고의 성능을 기록하였다. 또한 추가적인 다운스트림 피팅(fine-tuning)을 통해 뚜렷한 성능 향상을 보였다. 본 연구에서 생성한 데이터셋, 잘 훈련된 모델, 그리고 데이터 합성 파이프라인은 향후 이 분야의 발전을 촉진하기 위해 공개될 예정이다.