비디오-텍스트 검색을 위한 통합된 코스-투-파인 정렬

비디오-텍스트 검색의 표준 접근 방식은 시각적 정보와 텍스트 정보 간의 대략적인(코스-그레인드) 또는 세부적인(파인-그레인드) 정렬을 활용합니다. 그러나 텍스트 쿼리에 따라 올바른 비디오를 검색하는 것은 종종 어려운 문제로, 이는 고수준(장면) 및 저수준(객체) 시각적 단서와 이를 텍스트 쿼리와 어떻게 연관시키는지에 대한 추론 능력을 필요로 합니다. 이를 위해 우리는 다양한 수준에서의 시각적과 텍스트 정보 간의 유사성 정보를 포착하는 통합된 코스-투-파인 정렬 모델, UCoFiA를 제안합니다. 특히, 우리의 모델은 서로 다른 세밀도 수준에서의 크로스모달 유사성 정보를 포착합니다. 무관한 시각적 단서들의 영향을 완화하기 위해, 우리는 또한 다양한 시각적 특징들의 중요성을 고려하면서 크로스모달 유사성을 집계하여 각 세밀도 수준별 유사성 점수를 얻기 위한 상호작용적 유사성 집계 모듈(Interactive Similarity Aggregation module, ISA)을 적용합니다. 마지막으로, 각 수준별 유사성을 합산하기 전에 싱크혼-노프 알고리즘을 사용하여 정규화함으로써 서로 다른 수준에서의 과대표현 및 과소표현 문제를 완화합니다. UCoFiA는 다양한 세밀도 수준의 크로스모달 유사성을 공동으로 고려함으로써 다중 세밀도 정렬을 효과적으로 통합할 수 있습니다. 경험적으로, UCoFiA는 MSR-VTT, Activity-Net, 그리고 DiDeMo에서 텍스트-비디오 검색 R@1 성능에서 각각 2.4%, 1.4%, 1.3% 개선을 보이며 기존 최신 CLIP 기반 방법들을 능가합니다. 우리의 코드는 https://github.com/Ziyang412/UCoFiA에서 공개적으로 이용 가능합니다.