
초록
비디오 인식을 위한 표준적인 방법은 시공간 데이터를 포착할 수 있도록 설계된 대규모 CNN을 사용한다. 그러나 이러한 모델을 훈련시키기 위해서는 다양한 동작, 장면, 설정 및 카메라 시점이 포함된 방대한 레이블링된 훈련 데이터가 필요하다. 본 논문에서는 현재의 합성곱 신경망 모델이 훈련 데이터에 존재하지 않는 카메라 시점에서의 동작 인식(즉, 미관측 시점 동작 인식)을 수행하지 못함을 보여준다. 이를 해결하기 위해 3차원 표현 기반의 접근법을 개발하고, 시점 불변 표현을 학습할 수 있는 새로운 기하학적 합성곱 층을 제안한다. 또한, 미관측 시점 인식을 위한 새로운 도전적인 데이터셋을 소개하며, 제안된 방법이 시점 불변 표현을 학습할 수 있음을 실험적으로 입증한다.