9일 전

X-Pool: 텍스트-비디오 검색을 위한 다중모달 언어-비디오 어텐션

Satya Krishna Gorti, Noel Vouitsis, Junwei Ma, Keyvan Golestan, Maksims Volkovs, Animesh Garg, Guangwei Yu
X-Pool: 텍스트-비디오 검색을 위한 다중모달 언어-비디오 어텐션
초록

텍스트-비디오 검색에서의 목적은 텍스트와 비디오 간의 크로스모달 유사도 함수를 학습하여 관련된 텍스트-비디오 쌍을 비관련 쌍보다 높은 순위로 배치하는 것이다. 그러나 비디오는 텍스트보다 훨씬 광범위한 정보를 내재적으로 표현한다. 반면 텍스트는 전체 비디오의 일부 영역만을 포착하며, 비디오 내 특정 프레임과 가장 의미적으로 유사한 경우가 많다. 따라서 주어진 텍스트에 대해 검색 모델은 해당 텍스트와 가장 의미적으로 유사한 비디오 하위 영역에 초점을 맞추어 더 관련성 높은 비교를 수행해야 한다. 그러나 기존 대부분의 방법들은 텍스트를 직접 고려하지 않고 전체 비디오를 집계하는 방식을 사용한다. 일반적인 텍스트 무관 집계 기법으로는 프레임에 대한 평균 풀링이나 자기 주의(Self-attention)가 있지만, 이러한 방법은 주어진 텍스트에 언급되지 않은 오해를 유도할 수 있는 시각 정보를 포함할 가능성이 크다. 이를 해결하기 위해 우리는 텍스트와 비디오 프레임 간의 상호작용을 추론할 수 있는 크로스모달 주의 모델인 X-Pool을 제안한다. 본 연구의 핵심 메커니즘은 텍스트가 가장 의미적으로 유사한 프레임에 집중할 수 있도록 스케일된 도트 곱 주의(Scaled Dot Product Attention)를 활용하는 것이다. 이후 텍스트가 프레임에 대해 가진 주의 가중치를 조건으로 하여 집계된 비디오 표현을 생성한다. 제안한 방법은 MSR-VTT, MSVD, LSMDC 세 가지 벤치마크 데이터셋에서 평가되었으며, Recall@1에서 최대 12%의 상대적 개선을 기록하며 새로운 최고 성능을 달성하였다. 본 연구 결과는 텍스트에 따라 중요한 시각적 특징을 효과적으로 추출하기 위해 텍스트와 비디오의 공동 추론이 매우 중요함을 강조한다. 전체 코드와 데모는 다음 링크에서 확인할 수 있다: https://layer6ai-labs.github.io/xpool/