11일 전

타겟을 아는 것: 타겟 인지 트랜스포머가 더 나은 시공간 비디오 기반을 만든다

Xin Gu, Yaojie Shen, Chenxi Luo, Tiejian Luo, Yan Huang, Yuewei Lin, Heng Fan, Libo Zhang
타겟을 아는 것: 타겟 인지 트랜스포머가 더 나은 시공간 비디오 기반을 만든다
초록

Transformer는 엔드투엔드 파이프라인과 탁월한 성능으로 인해 STVG 분야에서 점점 더 많은 관심을 받고 있다. 기존의 Transformer 기반 STVG 접근 방식은 주로 공간적 및 시간적 위치 추정을 위해 다중 모달 특징과 반복적인 상호작용을 통해 목표 위치 정보를 점진적으로 학습하는, 단순히 영제로 초기화된 객체 쿼리(Zero object queries)를 활용한다. 그러나 이러한 영제 초기화 쿼리는 목표에 특화된 신호를 포함하지 않아, 복잡한 시나리오(예: 방해 요소나 가림 현상이 있는 경우)에서 다중 모달 특징과의 상호작용을 통해 구분 가능한 목표 정보를 학습하는 데 어려움을 겪으며, 성능 저하를 초래한다. 이를 해결하기 위해 본 연구는 주어진 영상-텍스트 쌍에서 목표에 특화된 신호를 탐색함으로써 객체 쿼리를 적응적으로 생성하는 새로운 Target-Aware Transformer for STVG(TA-STVG)를 제안한다. 이는 STVG 성능을 향상시키는 데 기여한다. 핵심은 두 가지 간단하면서도 효과적인 모듈, 즉 텍스트 지도형 시간 샘플링(Text-guided temporal sampling, TTS)과 속성 인지형 공간 활성화(Attribute-aware spatial activation, ASA)의 연쇄적 작용에 있다. TTS는 전체적인 텍스트 정보를 활용하여 영상에서 목표와 관련된 시간적 신호를 선택하는 데 집중하며, ASA는 이전에 얻은 목표 인지형 시간 신호를 바탕으로 객체의 세부 시각적 속성 정보를 추가로 탐색하여 객체 쿼리 초기화에 활용한다. 기존의 영제로 초기화된 쿼리와 달리, 본 연구의 TA-STVG는 주어진 영상-텍스트 쌍에서 직접 생성된 객체 쿼리가 자연스럽게 목표에 특화된 신호를 포함하고 있어, 다중 모달 특징과의 상호작용이 더 적응적이고 효과적이며, 더 구분력 있는 정보를 학습하는 데 기여한다. 세 가지 벤치마크에서 수행한 실험 결과, TA-STVG는 최신 기술 수준(SOTA)의 성능을 달성하며 기준 모델을 크게 능가함으로써 본 방법의 유효성을 입증하였다.

타겟을 아는 것: 타겟 인지 트랜스포머가 더 나은 시공간 비디오 기반을 만든다 | 최신 연구 논문 | HyperAI초신경