7일 전
COSA: 연결된 샘플 사전 학습된 시각-언어 기반 모델
Sihan Chen, Xingjian He, Handong Li, Xiaojie Jin, Jiashi Feng, Jing Liu

초록
영상-텍스트 학습 코퍼스의 규모와 품질이 제한적이기 때문에, 대부분의 시각-언어 기반 모델들은 사전 훈련에 이미지-텍스트 데이터셋을 사용하며, 시각적 의미 표현 모델링에 주로 집중하면서 시계적 의미 표현과 상관관계를 간과하고 있다. 이 문제를 해결하기 위해 우리는 COSA(COncatenated SAmple)를 제안한다. COSA는 이미지-텍스트 코퍼스만을 사용하여 시각적 콘텐츠와 이벤트 수준의 시계적 신호를 공동으로 모델링하는 사전 훈련 기반의 시각-언어 기반 모델이다. 이를 위해 우리는 여러 개의 이미지-텍스트 쌍을 순차적으로 연결하여 사전 훈련 입력으로 활용한다. 이 변환은 기존의 이미지-텍스트 코퍼스를 가상의 장형 비디오-단락 코퍼스로 효과적으로 전환함으로써, 더 풍부한 장면 전환과 명시적인 이벤트 기술 대응을 가능하게 한다. 광범위한 실험을 통해 COSA가 장형/단형 비디오-텍스트 작업 및 검색, 캡셔닝, 질의응답 등 다양한 이미지-텍스트 작업에 걸쳐 일관되게 성능을 향상시킴을 확인하였다. 특히 COSA는 다양한 경쟁적 벤치마크에서 최상의 성능을 달성하였다. 코드와 모델은 https://github.com/TXH-mercury/COSA 에 공개되어 있다.