2달 전

STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding 번역: STVGFormer: 정적-동적 크로스 모달 이해를 활용한 시공간 비디오 그라운딩

Zihang Lin; Chaolei Tan; Jian-Fang Hu; Zhi Jin; Tiancai Ye; Wei-Shi Zheng
STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding
번역:
STVGFormer: 정적-동적 크로스 모달 이해를 활용한 시공간 비디오 그라운딩
초록

이 기술 보고서에서는 사람 중심의 시공간 비디오 지상화 작업에 대한 우리의 해결책을 소개합니다. 우리는 STVGFormer라는 간결하고 효과적인 프레임워크를 제안하는데, 이는 정적 분기와 동적 분기를 통해 시공간 시각-언어 의존성을 모델링합니다. 정적 분기는 단일 프레임 내에서 교차 모달 이해를 수행하며, 객체의 외관과 같은 프레임 내 시각적 힌트에 따라 대상 객체의 공간 위치를 학습합니다. 동적 분기는 여러 프레임 간에서 교차 모달 이해를 수행하며, 움직임과 같은 동적 시각적 힌트에 따라 대상 순간의 시작 시간과 종료 시간을 예측하도록 학습됩니다. 정적 분기와 동적 분기는 모두 교차 모달 트랜스포머로 설계되었습니다. 또한, 정적 분기와 동적 분기가 서로 유용하고 보완적인 정보를 전송할 수 있도록 하는 새로운 정적-동적 상호작용 블록을 설계하였습니다. 이 방법은 어려운 사례에서 예측 성능을 개선하는 데 효과적이었습니다. 우리 제안 방법은 39.6%의 vIoU(visual Intersection over Union)를 달성하였으며, 4번째 'Context 속 사람' 챌린지의 HC-STVG 트랙에서 1위를 차지했습니다.

STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding 번역: STVGFormer: 정적-동적 크로스 모달 이해를 활용한 시공간 비디오 그라운딩 | 최신 연구 논문 | HyperAI초신경