17일 전

RGB-D 동작 인식을 위한 적외선 및 3D 스켈레톤 특징 융합

Alban Main de Boissiere, Rita Noumeir
RGB-D 동작 인식을 위한 적외선 및 3D 스켈레톤 특징 융합
초록

스켈레톤 기반 동작 인식의 과제 중 하나는 유사한 움직임을 가진 동작이나 물체와 관련된 동작을 구분하는 어려움이다. 이와 같은 문제를 해결하기 위해 다른 스트림에서 제공하는 시각적 정보가 유용하다. RGB 데이터는 조명 조건에 민감하므로 어두운 환경에서는 사용이 불가능하다. 이러한 문제를 완화하면서도 시각 스트림의 이점을 유지하기 위해, 스켈레톤 데이터와 적외선 데이터를 결합하는 모듈형 네트워크(FUSION)를 제안한다. 스켈레톤 데이터로부터 특징을 추출하기 위해 2차원 컨볼루셔널 신경망(CNN)을 포즈 모듈로 사용하고, 비디오에서 시각적 정보를 추출하기 위해 3차원 CNN을 적외선 모듈로 활용한다. 두 모듈에서 추출된 특징 벡터는 이후 다층 퍼셉트론(MLP)을 사용하여 함께 활용된다. 또한 스켈레톤 데이터는 적외선 영상에 조건을 부여하여 수행 주체 주변의 영역을 자르는 방식으로, 적외선 모듈의 주의 집중을 가상으로 강화한다. 제거 실험(ablation study) 결과, 다른 대규모 데이터셋에서 사전 훈련된 네트워크를 모듈로 사용하고 데이터 증강을 적용할 경우, 동작 분류 정확도가 상당히 향상됨을 확인할 수 있다. 특히 본 연구의 자르기 전략(cropping strategy)이 중요한 기여를 한다는 점도 입증되었다. 제안한 방법은 깊이 카메라를 이용한 인간 동작 인식 분야에서 가장 큰 데이터셋인 NTU RGB+D 데이터셋에서 평가되었으며, 최신 기술(SOTA, state-of-the-art) 수준의 성능을 보고하였다.