CoVR-2: 조합형 비디오 검색을 위한 자동 데이터 구축

조합 이미지 검색(Composed Image Retrieval, CoIR)은 최근에 텍스트와 이미지 쿼리를 함께 고려하여 데이터베이스에서 관련 이미지를 검색하는 작업으로 인기를 얻고 있습니다. 대부분의 CoIR 접근 방식은 쿼리 이미지에서 대상 이미지로의 수정을 설명하는 텍스트를 포함한 이미지-텍스트-이미지 트리플릿으로 구성된 수동으로 주석화된 데이터셋을 필요로 합니다. 그러나 CoIR 트리플릿의 수동 큐레이션은 비용이 많이 들고 확장성을 저해합니다. 본 연구에서는 이러한 문제를 해결하기 위해 비디오-캡션 쌍을 기반으로 트리플릿을 생성하면서 동시에 조합 비디오 검색(Composed Video Retrieval, CoVR) 작업의 범위를 확장할 수 있는 확장 가능한 자동 데이터셋 생성 방법론을 제안합니다.이를 위해 우리는 큰 데이터베이스에서 유사한 캡션을 가진 짝을 이루는 비디오들을 추출하고, 대형 언어 모델을 활용하여 해당 수정 텍스트를 생성합니다. 이 방법론을 WebVid2M 컬렉션에 적용하여 160만 개의 트리플릿으로 구성된 WebVid-CoVR 데이터셋을 자동으로 구축하였습니다. 또한, 수동으로 주석화된 평가 세트와 함께 새로운 CoVR 벤치마크를 소개하며, 기준선 결과도 함께 제공합니다. 우리는 Conceptual Captions 데이터셋을 사용하여 330만 개의 CoIR 학습 트리플릿을 생성함으로써 이 방법론이 이미지-캡션 쌍에도 동등하게 적용될 수 있음을 추가로 확인하였습니다.우리의 모델은 BLIP-2 사전학습에 기반하여 조합 비디오(또는 이미지) 검색에 적응시키고, 트리플릿 외에도 추가적인 감독 정보를 활용할 수 있도록 캡션 검색 손실 함수를 통합하였습니다. 우리는 새로운 CoVR 벤치마크에서 설계 선택사항들을 분석하기 위한 광범위한 아블레이션 연구를 수행하였으며, 실험 결과가 우리의 데이터셋에서 학습된 CoVR 모델이 효과적으로 CoIR로 전달되어 CIRR, FashionIQ, 그리고 CIRCO 벤치마크에서 제로샷 설정에서 최신 성능을 개선한다는 것을 보여주었습니다. 우리의 코드, 데이터셋 및 모델은 https://imagine.enpc.fr/~ventural/covr/ 에서 공개적으로 이용 가능합니다.