12일 전
기하 대수 스페시오-타임 모델에서의 형태-운동 표현 학습을 통한 뼈대 기반 동작 인식
{Xing Liu, Rongjie Xia, Qinghua Huang, Yanshan Li}
초록
스켈레톤 기반 행동 인식은 스마트 비디오 감시 및 인간 행동 분석 분야에서 널리 활용되고 있다. 기존 연구들은 컨볼루션 신경망(Convolutional Neural Networks, CNN)을 활용하여 스켈레톤 시퀀스의 공간-시간 특징을 효과적으로 학습하는 데 성공하였다. 그러나 이러한 기법들은 고립된 관절의 좌표에만 초점을 맞추며, 관절 간의 공간적 관계를 무시하고, 운동 표현을 암묵적으로만 학습하는 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 기하 대수(geometric algebra)를 활용하여 스켈레톤 시퀀스로부터 종합적인 표현을 학습하는 효과적인 방법을 제안한다. 먼저, 시점 변화에 강건한 특성을 갖는 전면 방향 기반의 공간-시간 모델을 구축하여 스켈레톤 시퀀스의 공간적 구성과 시간적 동역학을 표현한다. 이후, 서로 보완적인 형태-운동 표현(shape-motion representations)을 학습하여 스켈레톤 행동을 종합적으로 기술한다. 마지막으로, 보완적인 형태-운동 표현에서 깊이 있는 특징을 추출하고 융합하기 위해 다중 스트림 CNN 모델을 적용한다. NTU RGB+D 및 Northwestern-UCLA 데이터셋에서의 실험 결과를 통해 본 연구의 방법이 우수함을 일관되게 입증하였다.