17일 전

CBVS: 실제 세계의 단편 영상 검색 시나리오를 위한 대규모 중국어 이미지-텍스트 벤치마크

Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma
CBVS: 실제 세계의 단편 영상 검색 시나리오를 위한 대규모 중국어 이미지-텍스트 벤치마크
초록

대규모 이미지-텍스트 데이터셋으로 사전 훈련된 시각-언어 모델은 이미지 검색과 같은 하류 작업에서 뛰어난 성능을 보여왔다. 대부분의 사전 훈련용 이미지는 개방형 도메인의 보편적인 시각적 요소 형태로 제공된다. 반면, 단편 영상 검색 환경에서의 영상 커버는 사용자가 생성한 콘텐츠로서 영상의 중요한 시각적 요약을 제공한다. 또한 일부 영상 커버에는 의미적 보완 정보를 제공하는 수동으로 설계된 커버 텍스트가 함께 제공된다. 이러한 단편 영상 커버 데이터의 부족을 보완하기 위해, 우리는 중국어 단편 영상 검색 환경을 대상으로 최초의 대규모 커버-텍스트 기준 데이터셋을 구축하였다. 구체적으로, 단편 영상 커버를 제공하는 대규모 데이터셋 CBVS-5M/10M을 공개하고, 실제 사용자 쿼리를 제공하는 수동 정밀 레이블링 데이터셋 CBVS-20K를 함께 제공함으로써, 중국어 단편 영상 검색 분야에서 이미지-텍스트 기준 테스트 벤치마크를 구현하였다. 모달리티 누락 상황에서 커버 텍스트의 의미를 통합하기 위해, 본 연구에서는 훈련 과정에서 커버 텍스트가 지침 역할을 하되, 추론 시에는 의존하지 않는 UniCLIP 모델을 제안한다. CBVS-20K에서 실시한 광범위한 평가를 통해 제안 모델의 우수한 성능이 입증되었다. UniCLIP는 수억 건 이상의 조회 수를 기록하는 텐센트 온라인 영상 검색 시스템에 도입되어 의미 있는 성능 향상을 달성하였다. 관련 데이터셋과 코드는 https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP 에서 공개되어 있다.