17일 전
VISTA: 유니버설 다중 모달 검색을 위한 시각화된 텍스트 임베딩
Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong

초록
다중 모달 검색은 실무에서 점점 더 인기를 끌고 있다. 그러나 기존의 검색 모델은 대부분 텍스트 중심이며, 시각 정보를 처리할 수 있는 능력이 부족하다. CLIP과 같은 시각-언어 모델이 존재하지만, 현재의 방법들은 텍스트 전용 및 이미지 전용 데이터를 효과적으로 표현하는 데에 큰 한계를 지닌다. 본 연구에서는 보편적인 다중 모달 검색을 위한 새로운 임베딩 모델 VISTA를 제안한다. 본 연구는 세 가지 기술적 기여를 이뤄냈다. 첫째, 시각 토큰 임베딩을 도입함으로써 강력한 텍스트 인코더에 이미지 이해 능력을 확장하는 유연한 아키텍처를 제안한다. 둘째, 고품질의 이미지-텍스트 복합 데이터를 생성하기 위한 두 가지 데이터 생성 전략을 개발하여 임베딩 모델의 학습을 촉진한다. 셋째, 다단계 학습 알고리즘을 도입한다. 이 알고리즘은 먼저 방대한 약한 레이블 데이터를 활용해 시각 토큰 임베딩을 텍스트 인코더와 정렬한 후, 생성된 이미지-텍스트 복합 데이터를 사용하여 다중 모달 표현 능력을 개발한다. 실험 결과, VISTA는 제로샷 및 지도 학습 설정에서 다양한 다중 모달 검색 과제에서 우수한 성능을 달성하였다. 본 모델, 데이터 및 소스 코드는 https://github.com/FlagOpen/FlagEmbedding 에 공개되어 있다.