2달 전

오디오 강화된 텍스트-비디오 검색을 위한 텍스트 조건부 특성 정렬

Sarah Ibrahimi; Xiaohang Sun; Pichao Wang; Amanmeet Garg; Ashutosh Sanan; Mohamed Omar
오디오 강화된 텍스트-비디오 검색을 위한 텍스트 조건부 특성 정렬
초록

텍스트-비디오 검색 시스템은 대규모 이미지-텍스트 쌍으로 사전 훈련된 모델을 활용하여 최근 상당한 진전을 이룩하였습니다. 그러나 대부분의 최신 방법들은 이 작업에서 오디오 신호를 무시하고 주로 비디오 모달에 초점을 맞추고 있습니다. 그럼에도 불구하고, ECLIPSE의 최근 발전은 오디오 시각적 비디오 표현을 개발함으로써 장거리 텍스트-비디오 검색을 개선하였습니다. 하지만, 텍스트-비디오 검색 작업의 목적은 단순히 더 나은 오디오와 비디오 정렬을 달성하는 것이 아니라 텍스트 쿼리와 관련된 보완적인 오디오 및 비디오 정보를 포착하는 것입니다. 이를 해결하기 위해, 우리는 TEFAL(TExt-conditioned Feature ALignment)이라는 방법을 소개합니다. 이 방법은 텍스트 쿼리를 조건으로 하는 오디오와 비디오 표현 모두를 생성합니다. 오직 오디오 시각적 주의 블록만 사용하여 텍스트 쿼리와 관련된 오디오 정보가 억제될 수 있는 문제를 해결하기 위해, 우리의 접근 방식은 두 개의 독립적인 크로스-모달 주의 블록을 사용하여 텍스트가 각각 오디오와 비디오 표현에 주목할 수 있도록 합니다. 제안된 방법의 효과는 MSR-VTT, LSMDC, VATEX, 그리고 Charades 등 네 가지 벤치마크 데이터셋에서 입증되었으며, 이들 데이터셋에서 일관되게 최상의 성능을 초과하여 달성하였습니다. 이러한 성능 향상은 추가적인 텍스트 쿼리 조건부 오디오 표현과 이를 통해 텍스트 쿼리 조건부 비디오 표현에 추가되는 보완적인 정보 때문입니다.