자기지도형 뼈대 기반 동작 인식을 위한 상대적 시각적 템포 모델링

시각적 템포(visual tempo)는 행동의 동역학과 시간적 변화를 특징짓는 요소로, 행동을 설명하는 데 기여한다. 최근의 접근법들은 스켈레톤 시퀀스 위에서 직접 시각적 템포를 예측하나, 이는 특징 표현이 부족할 수 있는 문제를 겪을 수 있다. 본 논문에서는 상대적 시각적 템포가 인간의 직관과 더 부합하며, 더 효과적인 감독 신호를 제공할 수 있음을 관찰하였다. 이를 바탕으로, 스켈레톤 행동 표현을 위한 새로운 상대적 시각적 템포 대비 학습 프레임워크(RVTCLR)를 제안한다. 구체적으로, 동영상 내 클립 내부의 운동 정보를 탐색하기 위한 상대적 시각적 템포 학습(RVTL) 작업과, 외형 정보를 동시에 학습하기 위한 외형 일관성(AC) 작업을 설계함으로써, 보다 표현력 있는 시공간 특징을 얻을 수 있다. 또한 스켈레톤 시퀀스 데이터는 RGB 데이터에 비해 훨씬 희박하기 때문에, 네트워크가 단순한 학습 경로를 타고 저차원 정보(예: 스켈레톤 크기)에 과적합되는 문제가 발생할 수 있다. 고차원 의미를 학습하기 위해, 새로운 분포 일관성(DC) 브랜치를 추가로 설계하였으며, 이는 스켈레톤 특화 데이터 증강(SDA), 세밀한 스켈레톤 인코딩 모듈(FSEM), 분포 인지형 다양성(DD) 손실의 세 가지 구성 요소로 이루어져 있다. 본 연구의 전체 방법론(RVTCLR + DC)을 RVTCLR+라 명명한다. NTU RGB+D 60 및 NTU RGB+D 120 데이터셋에서 실시한 광범위한 실험 결과, RVTCLR+는 최신 기술 대비 경쟁력 있는 성능을 달성함을 입증하였다. 코드는 https://github.com/Zhuysheng/RVTCLR 에서 공개되어 있다.