2달 전

RGNet: 긴 비디오를 위한 통합 클립 검색 및 지면화 네트워크

Hannan, Tanveer ; Islam, Md Mohaiminul ; Seidl, Thomas ; Bertasius, Gedas
RGNet: 긴 비디오를 위한 통합 클립 검색 및 지면화 네트워크
초록

긴 영상(20-120분) 내에서 특정 순간을 찾는 것은 바늘 구멍에서 바늘 찾기와 같은 큰 도전입니다. 기존의 짧은 영상(5-30초) 기반 방법들을 이 문제에 적용하면 성능이 크게 떨어집니다. 유튜브 및 AR/VR과 같은 대부분의 실제 영상이 길기 때문에, 이 문제를 해결하는 것이 중요합니다. 기존 방법들은 일반적으로 클립 검색과 그라운딩 두 단계로 작동하지만, 이 분리된 과정은 특정 순간 감지에 중요한 세부적인 사건 이해를 제한합니다. 우리는 클립 검색과 그라운딩을 깊게 통합하여 긴 영상을 여러 개의 세부 수준으로 처리할 수 있는 단일 네트워크인 RGNet을 제안합니다. 예를 들어, 클립과 프레임 등이 해당됩니다.RGNet의 핵심 구성 요소는 두 단계를 공유된 특징과 상호 최적화를 통해 통합하는 새로운 트랜스포머 인코더인 RG-인코더(RG-Encoder)입니다. 이 인코더는 희소 주의 메커니즘(sparse attention mechanism)과 주의 손실(attention loss)을 통합하여 두 가지 세부 수준을 동시에 모델링합니다. 또한, 훈련 중 긴 영상 패러다임을 더욱 정확히 모방하기 위해 대조적인 클립 샘플링 기술(contrastive clip sampling technique)을 소개합니다. RGNet은 기존 방법들을 능가하며, 긴 영상 시간적 그라운딩(Long Video Temporal Grounding, LVTG) 데이터셋인 MAD와 Ego4D에서 최고 수준의 성능을 보여주고 있습니다.

RGNet: 긴 비디오를 위한 통합 클립 검색 및 지면화 네트워크 | 최신 연구 논문 | HyperAI초신경