17일 전

TS2-Net: 텍스트-비디오 검색을 위한 토큰 시프트 및 선택 트랜스포머

Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin
TS2-Net: 텍스트-비디오 검색을 위한 토큰 시프트 및 선택 트랜스포머
초록

텍스트-비디오 검색은 실용적 가치가 높은 과제로, 최근 점점 더 많은 주목을 받고 있으며, 특히 시공간적 비디오 표현 학습이 연구의 핵심 주제 중 하나로 부각되고 있다. 최신 비디오 검색 모델에서 사용되는 비디오 인코더는 일반적으로 네트워크 구조가 고정된 사전 학습된 비전 백본을 직접 활용하기 때문에, 더 나은 세부적인 시공간적 비디오 표현을 생성하기 위해 추가적으로 개선될 수 없다는 한계가 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 입력 비디오 샘플에서 시공간적으로 정보가 풍부한 토큰을 동적으로 조정하고 선택하는 새로운 토큰 이동 및 선택 트랜스포머 아키텍처인 Token Shift and Selection Network(TS2-Net)을 제안한다. 토큰 이동 모듈은 인접 프레임 간에 전체 토큰 특징을 시계열적으로 앞뒤로 이동시켜, 토큰 표현의 완전성을 유지하고 미세한 움직임을 효과적으로 포착한다. 이후 토큰 선택 모듈은 지역적 공간적 의미에 가장 기여하는 토큰들을 선별한다. 철저한 실험을 통해 제안하는 TS2-Net은 MSRVTT, VATEX, LSMDC, ActivityNet, DiDeMo를 포함한 주요 텍스트-비디오 검색 벤치마크에서 최고 성능을 달성하였으며, 특히 MSRVTT, VATEX, LSMDC, ActivityNet, DiDeMo에서 새로운 기록을 수립하였다.

TS2-Net: 텍스트-비디오 검색을 위한 토큰 시프트 및 선택 트랜스포머 | 최신 연구 논문 | HyperAI초신경