2달 전

텍스트를 통한 비디오 검색을 위한 이중 인코딩

Dong, Jianfeng ; Li, Xirong ; Xu, Chaoxi ; Yang, Xun ; Yang, Gang ; Wang, Xun ; Wang, Meng
텍스트를 통한 비디오 검색을 위한 이중 인코딩
초록

본 논문은 텍스트를 이용한 동영상 검색이라는 어려운 문제에 도전합니다. 이러한 검색 패러다임에서 최종 사용자는 시각적 예제 없이 자연어 문장 형태로만 설명된 즉흥적인 쿼리를 통해 라벨이 부착되지 않은 동영상을 검색합니다. 동영상을 프레임의 시퀀스로, 쿼리를 단어의 시퀀스로 주어졌을 때, 효과적인 시퀀스-투-시퀀스 크로스 모달 매칭이 필수적입니다. 이를 위해 두 모달은 먼저 실수 벡터로 인코딩되어 공통 공간으로 투사되어야 합니다. 본 논문에서는 이 목표를 달성하기 위해 동영상과 쿼리를 각자의 강력한 밀집 표현으로 인코딩하는 듀얼 딥 인코딩 네트워크를 제안합니다. 우리의 혁신성은 두 가지 측면에서 나타납니다. 첫째, 기존 연구가 특정 단일 수준 인코더에 의존하는 것과 달리, 제안된 네트워크는 두 모달의 풍부한 내용을 거칠게부터 세밀하게 표현하는 다중 수준 인코딩을 수행합니다. 둘째, 개념 기반 또는 잠재 공간 기반 중 어느 하나의 전통적인 공통 공간 학습 알고리즘과 달리, 우리는 잠재 공간의 높은 성능과 개념 공간의 좋은 해석성을 결합한 하이브리드 공간 학습을 도입하였습니다. 듀얼 인코딩은 개념적으로 간단하면서도 실제적으로 효과적이며, 하이브리드 공간 학습으로 엔드-투-엔드로 훈련됩니다. 네 개의 도전적인 동영상 데이터셋에 대한 광범위한 실험 결과가 새로운 방법론의 타당성을 보여줍니다.

텍스트를 통한 비디오 검색을 위한 이중 인코딩 | 최신 연구 논문 | HyperAI초신경