2달 전

문맥 지도된 시공간 비디오 그라운딩

Xin Gu; Heng Fan; Yan Huang; Tiejian Luo; Libo Zhang
문맥 지도된 시공간 비디오 그라운딩
초록

공간-시간 영상 지정(Spatio-temporal video grounding, STVG) 작업은 텍스트 쿼리가 주어졌을 때 특정 인스턴스에 대한 공간-시간 튜브를 찾는 것을 목표로 합니다. 그러나 현재의 방법들은 비디오에서 충분하지 않은 객체 정보로 인해 방해 요소나 객체 외관의 큰 변화에 쉽게 영향을 받아 성능이 저하되는 문제가 있습니다. 이를 해결하기 위해, 우리는 새로운 프레임워크인 컨텍스트 안내형 STVG(context-guided STVG, CG-STVG)를 제안합니다. 이 프레임워크는 비디오 내 객체의 차별적인 인스턴스 컨텍스트를 발굴하여 대상 위치 지정에 보조적인 안내로 활용합니다.CG-STVG의 핵심은 두 가지 특별히 설계된 모듈에 있습니다. 첫 번째는 인스턴스 컨텍스트 생성(instance context generation, ICG)으로, 이 모듈은 인스턴스의 시각적 컨텍스트 정보(외관과 운동 모두 포함)를 발견하는 데 초점을 맞춥니다. 두 번째는 인스턴스 컨텍스트 정제(instance context refinement, ICR)로, 이 모듈은 ICG에서 얻은 컨텍스트에서 관련성 없는 심지어 해롭한 정보를 제거하여 인스턴스 컨텍스트를 개선하는 것을 목표로 합니다. 지정 과정에서는 ICG와 ICR이 트랜스포머 아키텍처의 각 디코딩 단계에서 인스턴스 컨텍스트 학습을 위해 배치됩니다.특히, 한 디코딩 단계에서 학습된 인스턴스 컨텍스트는 다음 단계에 전달되어 풍부하고 차별적인 객체 특성을 포함한 안내로서 활용되며, 이는 디코딩 특성 내의 대상 인식을 강화함으로써 역으로 더 나은 새로운 인스턴스 컨텍스트 생성을 돕고 결국 위치 지정 성능을 개선합니다. 기존 방법들과 비교할 때, CG-STVG는 텍스트 쿼리에서 얻은 객체 정보와 발굴된 인스턴스 시각적 컨텍스트로부터의 안내를 통해 더욱 정확한 대상 위치 지정을 가능하게 합니다.우리가 세 가지 벤치마크(HCSTVG-v1/-v2 및 VidSTG)에서 수행한 실험 결과, CG-STVG는 모든 벤치마크에서 m_tIoU와 m_vIoU에서 새로운 최고 수준(state-of-the-art) 성능을 달성하며 그 효과성을 입증하였습니다. 코드는 https://github.com/HengLan/CGSTVG 에서 공개될 예정입니다.

문맥 지도된 시공간 비디오 그라운딩 | 최신 연구 논문 | HyperAI초신경