
반복 동작 카운팅(Repetitive Action Counting, RAC)은 비디오에서 발생하는 반복 동작의 수를 세는 것을 목표로 합니다. 실제 세계에서는 반복 동작이 매우 다양하며 여러 가지 도전 과제(예: 시점 변화, 불균일한 주기, 동작 중단)를 가져옵니다. 기존의 시간적 자기 유사성 행렬(Temporal Self-Similarity Matrix, TSSM)을 기반으로 한 RAC 방법들은 복잡한 일상 비디오에 적용할 때 충분히 동작 주기를 포착하지 못하는 문제에 직면해 있습니다. 이 문제를 해결하기 위해, 우리는 다양한 TSSM을 구축하여 RAC를 수행하는 새로운 방법인 하이브리드 시간적 관계 모델링 네트워크(Hybrid Temporal Relation Modeling Network, HTRM-Net)를 제안합니다.HTRM-Net은 주로 세 가지 핵심 구성 요소로 이루어져 있습니다: 이모달 시간적 자기 유사성 행렬 모델링, 랜덤 행렬 드롭아웃, 그리고 국부적인 시간적 맥락 모델링. 구체적으로, 우리는 이모달(self-attention과 dual-softmax) 연산을 통해 시간적 자기 유사성 행렬을 구축하여 행 방향과 열 방향 상관관계의 조합으로부터 다양한 행렬 표현을 얻습니다. 이를 더욱 강화하기 위해, 랜덤 행렬 드롭아웃 모듈을 통합하여 행렬의 채널 방향 학습을 명시적으로 안내하는 방법을 제안합니다. 그 다음으로, 우리는 비디오 프레임의 국부적인 시간적 맥락과 학습된 행렬을 시간적 상관관계 모델링에 주입하여 동작 중단 등의 오류가 발생하기 쉬운 상황에서도 모델이 충분히 견고하게 대응할 수 있도록 합니다. 마지막으로, 다중 스케일 행렬 융합 모듈이 설계되어 다중 스케일 행렬에서 적응적으로 시간적 상관관계를 집계합니다.다양한 데이터셋 내부와 간部에서 수행된 광범위한 실험 결과는 제안된 방법이 현재 최신 기술보다 우수한 성능을 보이며, 미지의 동작 범주에서도 반복 동작의 수를 정확히 세는 데 강력한 능력을 나타냄을 입증하였습니다. 특히, 우리의 방법은 전통적인 TransRAC 방법보다 MAE(Mean Absolute Error)에서 20.04%, OBO(One-by-One)에서 22.76% 더 우수한 성능을 보였습니다.