17일 전

카메라 센서로부터의 맥락적 액션 촉진 요소를 활용한 다중 스트림 액션 인식

{Yong Won Hong, Jongkwang Hong, Bora Cho, Hyeran Byun}
초록

행동 인식 연구에서 주로 고려되는 두 가지 주요 정보는 RGB 이미지를 시각 센서를 통해 학습함으로써 얻는 외형 정보와 운동 정보이다. 그러나 행동의 특성에 따라, 특정 객체의 존재 여부나 이미지 내에서 공유되는 전반적인 정보와 같은 맥락 정보가 행동을 정의하는 데 핵심적인 역할을 한다. 예를 들어, ‘킥하기’와 ‘달리기’를 구분하는 데 있어 공의 존재 여부는 매우 중요한 정보가 된다. 더 나아가, 일부 행동은 일반적으로 유사한 전반적인 추상적 자세를 공유하는데, 이러한 자세는 행동 분류의 핵심 기준으로 활용될 수 있다. 이러한 관찰을 바탕으로, 본 연구에서는 이미지 내의 공간적, 시간적, 맥락적 특징을 통합하여 행동 인식을 수행하는 다중 스트림 네트워크 모델을 제안한다. 제안한 방법을 C3D 또는 팽창된 3D 컨볼루션 네트워크(Inflated 3D ConvNet, I3D)를 백본 네트워크로 사용하여 두 가지 다른 행동 인식 데이터셋에서 실험하였다. 그 결과, 전반적으로 정확도 향상을 관찰하였으며, 제안한 방법의 효과성을 입증하였다.