2달 전

FlashVTG: 비디오 시계열 정지에 대한 특성 층화 및 적응적 점수 처리 네트워크

Cao, Zhuo ; Zhang, Bingqing ; Du, Heming ; Yu, Xin ; Li, Xue ; Wang, Sen
FlashVTG: 비디오 시계열 정지에 대한 특성 층화 및 적응적 점수 처리 네트워크
초록

텍스트 안내 비디오 시간 영역 지정(Text-guided Video Temporal Grounding, VTG)은 텍스트 설명을 기반으로 미리 잘라지지 않은 비디오에서 관련 세그먼트를 위치시키는 것을 목표로 하며, 이는 두 개의 하위 작업인 순간 검색(Moment Retrieval, MR)과 하이라이트 감지(Highlight Detection, HD)를 포함합니다. 이전의 일반적인 방법들이 뛰어난 결과를 달성했음에도 불구하고, 짧은 비디오 순간을 검색하는 것은 여전히 어려운 문제입니다. 이는 주로 희소하고 제한된 디코더 쿼리를 사용하기 때문으로, 예측의 정확성을 크게 제약합니다. 또한, 이전 방법들은 전체 비디오 맥락을 간과하고 고립된 예측에만 의존하여 순위를 매기는 것이기 때문에 최적의 결과가 나오지 않는 경우가 많습니다. 이러한 문제들을 해결하기 위해, 우리는 시간 특징 층(TFL) 모듈과 적응적 점수 정제(Adaptive Score Refinement, ASR) 모듈을 특징으로 하는 FlashVTG 프레임워크를 소개합니다. TFL 모듈은 전통적인 디코더 구조를 대체하여 여러 시간 척도에서 세부적인 비디오 내용 변화를 포착하며, ASR 모듈은 인접한 순간들과 다중 시간 척도 특징을 통합하여 예측 순위를 개선합니다. 광범위한 실험 결과는 FlashVTG가 MR과 HD 모두에서 널리 사용되는 네 가지 데이터셋에서 최고 수준의 성능을 달성함을 보여줍니다. 특히 QVHighlights 데이터셋에서는 MR에서 mAP가 5.8%, HD에서 3.3% 향상되었습니다. 짧은 순간 검색에 있어서 FlashVTG는 이전 최고 수준(SOTA) 성능의 mAP를 125%까지 끌어올렸습니다. 이러한 모든 개선 사항은 추가적인 학습 부담 없이 이루어졌으며, 그 효과성을 강조합니다. 우리의 코드는 https://github.com/Zhuo-Cao/FlashVTG 에서 확인할 수 있습니다.

FlashVTG: 비디오 시계열 정지에 대한 특성 층화 및 적응적 점수 처리 네트워크 | 최신 연구 논문 | HyperAI초신경