2달 전

VLG-Net: 비디오-언어 그래프 매칭 네트워크를 이용한 비디오 정지

Soldan, Mattia ; Xu, Mengmeng ; Qu, Sisi ; Tegner, Jesper ; Ghanem, Bernard
VLG-Net: 비디오-언어 그래프 매칭 네트워크를 이용한 비디오 정지
초록

비디오에서 언어 쿼리를 정착하는 것은 쿼리와 의미적으로 관련된 시간 구간(또는 순간)을 식별하는 것을 목표로 합니다. 이 어려운 과제의 해결은 비디오와 쿼리의 의미적 내용을 이해하고, 그들의 다중 모달 상호작용에 대한 세부적인 추론이 요구됩니다. 우리의 핵심 아이디어는 이 도전을 알고리즘 그래프 매칭 문제로 재구성하는 것입니다. 최근 그래프 신경망의 발전에 힘입어, 우리는 비디오와 텍스트 정보 및 그들의 의미적 일치성을 모델링하기 위해 그래프 컨볼루션 네트워크를 활용하는 방법을 제안합니다. 모달 간 정보의 상호 교환을 가능하게 하기 위해, 우리는 새로운 비디오-언어 그래프 매칭 네트워크 (VLG-Net)를 설계하여 비디오와 쿼리 그래프를 매칭합니다. 주요 구성 요소에는 비디오 조각과 쿼리 토큰 각각 위에 구축된 표현 그래프가 포함되며, 이들은 모달 내 관계를 모델링하는 데 사용됩니다. 크로스-모달 맥락 모델링과 다중 모달 융합을 위해 그래프 매칭 레이어가 채택되었습니다. 마지막으로, 마스크드 순간 주목력 풀링을 통해 순간의 향상된 조각 특성을 융합하여 순간 후보를 생성합니다. 우리는 ActivityNet-Captions, TACoS, 그리고 DiDeMo라는 세 가지 널리 사용되는 데이터셋에서 언어 쿼리를 이용한 비디오 내 순간의 시차 위치화에 있어 최신 정착 방법보다 우수한 성능을 보여줍니다.