RGB-D 기반 운동 인식을 위한 시공간 표현의 분리 및 재결합

공간-시간 표현의 분리(decoupling)란 공간적 특징과 시간적 특징을 차원 간 독립적인 요소로 분해하는 것을 의미한다. 기존의 RGB-D 기반 운동 인식 방법들은 밀접하게 결합된 다중 모달 공간-시간 표현을 통해 유망한 성능을 달성하였지만, 여전히 다음과 같은 한계를 안고 있다. (i) 공간-시간 특징이 강하게 얽혀 있는 모델링으로 인해 소규모 데이터 환경에서 최적화가 어려움; (ii) 분류에 약한 관련성을 가지는 여분의 정보가 포함되어 있어 정보 중복 문제 발생; (iii) 후기 융합(late fusion)이 부족하여 다중 모달 공간-시간 정보 간 상호작용이 낮음. 이러한 문제를 완화하기 위해, 본 연구에서는 RGB-D 기반 운동 인식을 위한 공간-시간 표현의 분리 및 재결합 기법을 제안한다. 구체적으로, 공간-시간 표현 학습 과제를 다음과 같은 3개의 하위 과제로 분리한다. (1) 공간과 시간을 분리하여 모델링하는 네트워크를 통해 고품질이고 차원 독립적인 특징을 학습한다. (2) 분리된 표현을 재결합하여 더 강한 공간-시간 의존성을 구축한다. (3) RGB-D 데이터로부터 다중 모달 공간-시간 정보를 효과적으로 포착하기 위해 교차 모달 적응형 사후 융합(Cross-modal Adaptive Posterior Fusion, CAPF) 메커니즘을 도입한다. 이러한 새로운 설계 요소들을 원활하게 통합함으로써 강력한 공간-시간 표현을 구현하였으며, 네 개의 공개 운동 데이터셋에서 최신 기법들보다 우수한 성능을 달성하였다. 본 연구의 코드는 https://github.com/damo-cv/MotionRGBD 에서 공개되어 있다.