RGB-D 운동 인식을 위한 통합적 다중모달 분리 및 재결합 프레임워크

운동 인식은 컴퓨터 비전 분야에서 매우 유망한 연구 방향이지만, 영상 분류 모델의 학습은 이미지에 비해 데이터 부족과 상당한 모델 파라미터 수로 인해 훨씬 어려운 과제를 안고 있다. 이를 극복하기 위해 일부 연구들은 RGB-D 데이터로부터 다중 모달 정보를 탐색하려는 노력을 기울였다. 비록 운동 인식 성능을 어느 정도 향상시켰지만, 다음과 같은 측면에서 여전히 최적화되지 않은 문제를 겪고 있다: (i) 데이터 증강 측면에서는 RGB-D 데이터셋의 규모가 여전히 제한적이며, 영상에 특화된 새로운 데이터 증강 전략에 대한 연구는 거의 이루어지지 않았다; (ii) 최적화 메커니즘 측면에서는 공간-시간이 밀접하게 얽힌 네트워크 구조로 인해 공간-시간 정보 모델링이 더욱 복잡한 도전에 직면한다; (iii) 다중 모달 지식 융합 측면에서는 다중 모달 표현 간의 높은 유사성으로 인해 후기 융합(late fusion)의 효율성이 제한된다. 이러한 문제점을 완화하기 위해 본 논문에서는 데이터와 알고리즘 측면에서 모두 RGB-D 기반의 운동 인식 성능을 향상시키는 새로운 접근법을 제안한다. 구체적으로, 먼저 운동 인식에 추가적인 시간적 정규화를 제공하기 위해 MixUp의 보완적인 역할을 수행하는 새로운 영상 데이터 증강 기법인 ShuffleMix를 도입한다. 둘째, 영상 표현 학습을 위한 통합적 다중 모달 분리 및 다단계 재융합 프레임워크인 UMDR(Uniform Multimodal De-coupling and multi-stage Re-coupling)를 제안한다. 셋째, 다중 모달 정보 내 잠재적인 공통 특징을 탐색하여 보조 융합 스트림으로 활용할 수 있는 새로운 다중 모달 보완 특징 탐지기(CFCer: Complement Feature Catcher)를 제안한다. 이러한 혁신적인 설계들의 원활한 통합은 강력한 공간-시간 표현을 형성하며, 네 개의 공개 운동 인식 데이터셋에서 최신 기술(SOTA)보다 뛰어난 성능을 달성한다. 특히, UMDR은 Chalearn IsoGD 데이터셋에서 기존 기법 대비 무려 +4.5%의 사상적인 성능 향상을 달성하였다. 본 연구의 코드는 https://github.com/zhoubenjia/MotionRGBD-PAMI 에 공개되어 있다.