2달 전
비디오에서 다중 모달 가이던스를 이용한 순간 위치 추정
Barrios, Wayner ; Soldan, Mattia ; Ceballos-Arroyo, Alberto Mario ; Heilbron, Fabian Caba ; Ghanem, Bernard

초록
최근 대규모 장편 형식의 MAD 및 Ego4D 데이터셋이 소개되면서 연구자들은 현재 최신 기술을 이용해 장편 영상에서의 비디오 그라운딩 성능을 조사할 수 있게 되었습니다. 흥미로운 결과는 다음과 같습니다: 현재의 그라운딩 방법만으로는 장시간 비디오 시퀀스를 처리할 수 없기 때문에 이 어려운 과제와 환경을 해결하기에 부족합니다. 본 논문에서는 자연어 그라운딩의 성능을 개선하기 위해 설명 불가능한 창(window)을 식별하고 제거하는 방법을 제안합니다. 우리는 Guidance Model과 기본 그라운딩 모델로 구성된 유도 그라운딩 프레임워크를 설계하였습니다. Guidance Model은 설명 가능한 창에 중점을 두며, 기본 그라운딩 모델은 짧은 시간 창을 분석하여 주어진 언어 쿼리와 정확히 일치하는 세그먼트를 결정합니다. Guidance Model에 대한 두 가지 설계 방안인 Query-Agnostic(쿼리 무관형)과 Query-Dependent(쿼리 종속형)를 제시하며, 이들 방안은 효율성과 정확성을 균형있게 유지합니다. 실험 결과, 제안된 방법이 MAD 데이터셋에서 4.1%, Ego4D(NLQ) 데이터셋에서 4.52% 각각 최신 기술 모델보다 우수한 성능을 보였습니다. 실험 재현에 필요한 코드, 데이터 및 MAD의 오디오 특징은 다음 링크에서 확인 가능합니다: https://github.com/waybarrios/guidance-based-video-grounding.