2달 전

비디오 활동 위치 추정을 위한 경계 노이즈 제거

Mengmeng Xu; Mattia Soldan; Jialin Gao; Shuming Liu; Juan-Manuel Pérez-Rúa; Bernard Ghanem
비디오 활동 위치 추정을 위한 경계 노이즈 제거
초록

비디오 활동 위치화는 긴 미편집 비디오에서 의미론적 내용을 이해하고 관심 있는 행동을 검색하는 것을 목표로 합니다. 검색된 행동과 그 시작 및 종료 위치는 하이라이트 생성, 시간적 행동 감지 등에 사용될 수 있습니다. 그러나 활동의 정확한 경계 위치를 학습하는 것은 시간적으로 연속적인 활동이 존재하고, 행동 간에 명확한 전환점이 거의 없기 때문에 매우 어려운 문제입니다. 또한 사건의 시작과 종료를 정의하는 것이 주관적이어서 모델을 혼란시킬 수 있습니다. 이러한 경계 모호성을 완화하기 위해, 우리는 비디오 활동 위치화 문제를 노이즈 제거 관점에서 연구할 것을 제안합니다. 구체적으로, 노이즈 제거 기능을 가진 인코더-디코더 모델인 DenoiseLoc(노이즈제거위치)을 제안합니다. 훈련 중에는 지도 데이터로부터 제어된 노이즈 스케일로 임의의 행동 범위 집합이 생성됩니다. 그런 다음 이 과정을 경계 노이즈 제거를 통해 역으로 수행하여, 위치화기가 정확한 경계로 활동을 예측하도록 하고, 이로 인해 수렴 속도가 더 빨라집니다. 실험 결과 DenoiseLoc은 여러 비디오 활동 이해 작업에서 성능 향상을 보였습니다. 예를 들어, QV-Highlights 데이터셋에서는 평균 mAP가 +12.36% 향상되었으며, THUMOS'14 데이터셋에서는 [email protected]가 +1.64% 향상되었습니다. 또한 DenoiseLoc은 TACoS와 MAD 데이터셋에서 최신 기술(SOTA) 성능을 달성하였지만, 현재 다른 방법들보다 훨씬 적은 예측 횟수로 이를 이루어냈습니다.

비디오 활동 위치 추정을 위한 경계 노이즈 제거 | 최신 연구 논문 | HyperAI초신경