DiffusionRet: 확산 모델을 활용한 생성형 텍스트-비디오 검색

기존의 텍스트-비디오 검색 솔루션은 본질적으로 조건부 확률, 즉 p(후보들|쿼리)를 최대화하는 판별 모델에 초점을 맞추고 있다. 이 접근법은 직관적이지만, 데이터의 기본 분포 p(쿼리)를 간과하게 되어, 분포 외 데이터(out-of-distribution data)를 식별하는 데 어려움이 있다. 이러한 한계를 해결하기 위해, 우리는 창의적으로 생성적 관점에서 이 문제를 접근하여 텍스트와 비디오 간의 상관관계를 그들의 결합 확률 p(후보들, 쿼리)로 모델링한다. 이를 위해 확산 기반의 텍스트-비디오 검색 프레임워크인 DiffusionRet를 제안한다. 이 프레임워크는 노이즈에서 시작하여 점진적으로 결합 확률을 생성하는 과정으로 검색 작업을 모델링한다. 학습 과정에서 DiffusionRet는 생성과 판별의 두 가지 관점에서 최적화되며, 생성 손실을 통해 생성기(generator)를 최적화하고, 대조적 손실(constrastive loss)을 통해 특징 추출기(feature extractor)를 학습시킨다. 이를 통해 DiffusionRet는 생성적 방법과 판별적 방법의 장점을 효과적으로 활용한다. MSRVTT, LSMDC, MSVD, ActivityNet Captions, DiDeMo 등 다섯 가지 일반적으로 사용되는 텍스트-비디오 검색 벤치마크에서 실시한 광범위한 실험을 통해 본 방법의 우수한 성능이 입증되었다. 더욱 흥미롭게도, 어떠한 수정 없이도 DiffusionRet는 분포 외 검색 환경에서도 뛰어난 성능을 보였다. 본 연구가 관련 분야에 근본적인 통찰을 제공할 것이라 믿는다. 코드는 https://github.com/jpthu17/DiffusionRet 에서 공개되어 있다.