RGB 및 스켈레톤 모달리티 기반 인간 행동 인식을 위한 밀도-희소 보완 네트워크
복잡한 환경과 변화무쌍한 장면에서 RGB 기반의 인간 동작 인식의 취약성을 뼈대 모달리티를 통해 보완할 수 있다. 따라서 RGB와 뼈대 모달리티를 융합하는 동작 인식 방법에 대한 관심이 점점 증가하고 있다. 그러나 기존 방법들은 샘플링, 모델링 및 융합 전략이 충분히 최적화되지 않아 여전히 인식 성능이 만족스럽지 못하며, 계산 비용 또한 높은 편이다. 본 논문에서는 낮은 계산 비용으로 RGB와 뼈대 모달리티 간의 보완적 정보를 효과적으로 활용하여 경쟁력 있는 동작 인식 성능을 달성하는 밀도-희소 보완 네트워크(Dense-Sparse Complementary Network, DSCNet)를 제안한다. 구체적으로, RGB 모달리티의 특성을 고려해 밀도 높은 샘플링 전략을, 뼈대 모달리티의 특성을 반영해 희소한 샘플링 전략을 각각 도입한다. 또한, 뼈대 정보를 안내자로 활용하여 RGB 프레임 내에서 사람의 주요 활성 영역을 자르는 방식으로 배경의 간섭을 크게 제거한다. 더불어, 밀도 높은 RGB 프레임을 백본 네트워크에 입력하기 전에 단기 운동 추출 모듈(Short-Term Motion Extraction Module, STMEM)을 통해 더 적은 수의 프레임으로 압축함으로써 계산 비용 급증을 방지한다. 또한, 희소한 뼈대 데이터를 효과적으로 모델링하기 위해 희소 다중 스케일 시공간 합성곱 신경망(Sparse Multi-Scale Spatial–Temporal Convolutional Neural Network, Sparse-MSSTNet)을 설계하였다. 광범위한 실험 결과는 본 방법이 RGB와 뼈대 모달리티 간의 보완적 정보를 효과적으로 통합하여 인식 정확도를 향상시킴을 입증한다. DSCNet은 NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, UAV-human, IKEA ASM, Northwest-UCLA 등의 데이터셋에서 기존 방법들보다 훨씬 낮은 계산 비용으로 경쟁력 있는 성능을 달성하였다. 코드는 https://github.com/Maxchengqin/DSCNet 에 공개되어 있다.