18일 전

PIDRo: 텍스트-비디오 검색을 위한 병렬 이소머릭 어텐션과 동적 라우팅

{Edmund Y. Lam, Youliang Yan, Songcen Xu, Hang Xu, Jiaxi Gu, Weimian Li, Jianzhuang Liu, Bin Shao, Renjing Pei, Peiyan Guan}
PIDRo: 텍스트-비디오 검색을 위한 병렬 이소머릭 어텐션과 동적 라우팅
초록

텍스트-비디오 검색은 다중 모달 연구 분야에서 매우 실용적인 가치를 지닌 핵심 과제이다. 대규모 데이터를 기반으로 한 사전 훈련된 이미지-텍스트 모델(예: CLIP)의 놀라운 성공 사례에 영감을 받아, CLIP의 강력한 표현 학습 능력을 텍스트-비디오 검색에 전이하기 위한 다양한 방법들이 제안되어 왔다. 그러나 이미지와 비디오 간의 모달리티 차이로 인해, CLIP을 비디오 도메인에 효과적으로 적응시키는 방법은 여전히 탐색이 부족한 영역이다. 본 논문에서는 이 문제를 두 가지 측면에서 탐구한다. 첫째, CLIP의 전이된 이미지 인코더를 원활하게 개선하여 세부적인 비디오 이해 능력을 향상시킨다. 둘째, 모델 개선과 손실 함수 설계 측면에서 비디오와 텍스트 간의 세부적인 대조를 수행한다. 특히, 병렬 동형 주의(Parallel Isomeric Attention)와 동적 라우팅(Dynamic Routing)을 갖춘 세부적인 대조 모델인 PIDRo를 제안한다. 병렬 동형 주의 모듈은 비디오 인코더로 사용되며, 패치 수준과 프레임 수준에서 비디오의 공간-시간 정보를 병렬로 모델링하는 두 개의 브랜치로 구성된다. 동적 라우팅 모듈은 CLIP의 텍스트 인코더를 강화하기 위해 설계되었으며, 문장 내 관련 단어 토큰들에게 세부 정보를 분배함으로써 정보가 � rich한 단어 표현을 생성한다. 이러한 모델 설계를 통해 유의미한 패치, 프레임 및 단어 표현을 확보할 수 있다. 이후 이러한 표현들 간에 토큰 단위 상호작용을 수행한다. 강화된 인코더와 토큰 단위 손실 함수를 활용함으로써, 더 세밀한 텍스트-비디오 정렬과 더 정확한 검색이 가능해진다. PIDRo는 MSR-VTT, MSVD, LSMDC, DiDeMo, ActivityNet 등 다양한 텍스트-비디오 검색 벤치마크에서 최신 기술(SOTA) 성능을 달성하였다.