
초록
비디오 반복 횟수 추정은 비디오 내에서 반복되는 행동이나 움직임의 횟수를 추론하는 기술입니다. 본 연구에서는 대표 샘플을 기반으로 하는 접근법을 제안합니다. 이 방법은 목표 비디오 내에서 반복되는 대표 샘플 간의 시각적 일치성을 발견합니다. 제안된 'Every Shot Counts (ESCounts)' 모델은 주목도(attention) 기반 인코더-디코더로, 다양한 길이의 비디오와 동일한 비디오 및 다른 비디오에서 추출한 대표 샘플들을 함께 인코딩합니다. 훈련 과정에서 ESCounts는 비디오 내에서 대표 샘플과 높은 일치성을 보이는 위치를 회귀(regresses)합니다. 동시에, 본 연구 방법은 일반적인 반복 움직임의 표현을 인코딩하는 잠재 변수(latent)를 학습하여, 대표 샘플 없이도 새로운 상황(zero-shot)에서 추론할 수 있도록 합니다. 일반적으로 사용되는 데이터셋(RepCount, Countix, UCFRep)에 대한 광범위한 실험 결과는 ESCounts가 세 가지 데이터셋 모두에서 최고 수준의 성능을 달성함을 입증합니다. 자세한 아블레이션(ablation) 실험 또한 본 방법의 효과성을 보여줍니다.