17일 전

MMNet: RGB-D 영상에서 인간 행동 인식을 위한 모델 기반 다중모달 네트워크

{Keith C.C. Chan, Sheng-hua Zhong, Xiang Zhang, Yan Liu, Bruce X.B. Yu}
초록

RGB-D 영상에서의 인간 행동 인식(Human Action Recognition, HAR)은 저렴한 깊이 센서의 등장 이후 널리 연구되어 왔다. 현재 스텐실 기반 및 RGB 영상 기반과 같은 단모달 접근법은 점점 더 큰 데이터셋의 확보로 인해 상당한 성과를 거두고 있다. 그러나 모델 수준의 융합을 특별히 고려한 다모달 방법은 여전히 거의 연구되지 않은 상태이다. 본 논문에서는 모델 기반 접근법을 통해 스텐실과 RGB 모달을 융합하는 모델 기반 다모달 네트워크(MMNet)를 제안한다. 본 방법의 목적은 서로 보완적인 정보를 효과적으로 활용함으로써 다양한 데이터 모달 간의 상호보완적 특징을 적절히 통합하여 앙상블 행동 인식 정확도를 향상시키는 것이다. 모델 기반 융합 방식에서는 스텐실 모달에 대해 시공간 그래프 컨볼루션 네트워크를 사용하여 주의 가중치를 학습하고, 이를 RGB 모달의 네트워크로 전이한다. 제안된 방법은 NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, Northwestern-UCLA Multiview, Toyota Smarthome의 다섯 가지 벤치마크 데이터셋에서 광범위한 실험을 수행하였다. 여러 모달의 결과를 통합한 결과, 다섯 가지 데이터셋의 여섯 가지 평가 프로토콜에서 최신 기술(SOTA)을 초월하는 성능을 보였다. 이는 제안된 MMNet이 RGB-D 영상의 다양한 모달 간에 상호보완적인 특징을 효과적으로 포착하고, HAR에 더 구분력 있는 특징을 제공할 수 있음을 시사한다. 또한, 더 많은 실외 행동을 포함하는 RGB 영상 데이터셋인 Kinetics 400에서도 MMNet을 테스트한 결과, RGB-D 영상 데이터셋과 일관된 성능을 나타내었으며, 본 방법의 일반화 능력이 뛰어남을 입증하였다.