COTS: 다중 모달 검색을 위한 협업형 두 개의 스트림 시각-언어 사전학습 모델

대규모 단일 스트림 사전 학습은 이미지-텍스트 검색에서 놀라운 성능을 보여주고 있다. 그러나 무거운 어텐션 레이어로 인해 추론 효율성이 낮다는 단점이 있다. 최근 CLIP과 ALIGN과 같은 이중 스트림 방법은 높은 추론 효율성과 함께 희망적인 성능을 보이고 있지만, 두 스트림 간의 인스턴스 수준의 정렬만 고려하기 때문에 여전히 개선 여지가 있다. 이러한 한계를 극복하기 위해, 우리는 이미지-텍스트 검색을 위한 새로운 협업형 이중 스트림 비전-언어 사전 학습 모델인 COTS(COllaborative Two-Stream)를 제안한다. 이 모델은 다모달 간 상호작용을 강화함으로써 성능을 향상시킨다. 기존의 모멘텀 대비 학습을 통한 인스턴스 수준의 정렬 외에도, COTS는 두 가지 추가적인 다모달 상호작용 수준을 도입한다. (1) 토큰 수준 상호작용 – 교차 스트림 네트워크 모듈을 사용하지 않고, 마스킹 비전-언어 모델링(MVLM) 학습 목표를 설계하였으며, 시각 인코더에 변분 오토인코더(Variational Autoencoder)를 적용하여 각 이미지에 대해 시각 토큰을 생성한다. (2) 작업 수준 상호작용 – 텍스트에서 이미지로의 검색과 이미지에서 텍스트로의 검색이라는 두 작업 간에 KL-정렬 학습 목표를 설정하였으며, 모멘텀 대비 학습에서 사용하는 음성 큐(positive queues)를 기반으로 각 작업의 확률 분포를 계산한다. 공정한 비교 조건 하에서, COTS는 모든 이중 스트림 방법 중 최고의 성능을 달성했으며, 최신 단일 스트림 방법과 비교했을 때는 추론 속도가 10,800배 빠르면서도 유사한 성능을 기록하였다. 특히, COTS는 텍스트-비디오 검색에도 적용 가능하며, 널리 사용되는 MSR-VTT 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였다.