
초록
시공간 특징 학습은 영상 내 행동 인식에 있어 핵심적인 역할을 한다. 기존의 심층 신경망 모델들은 공간적 특징과 시간적 특징을 독립적으로 학습하는 방식(C2D) 또는 제약 없는 파라미터를 통해 공동으로 학습하는 방식(C3D)을 사용한다. 본 논문에서는 학습 가능한 파라미터에 가중치 공유 제약을 도입함으로써 시공간 특징을 공동으로 인코딩하는 새로운 신경 연산을 제안한다. 구체적으로, 부피형 영상 데이터의 세 가지 수직적인 시각에 대해 2차원 컨볼루션을 수행함으로써 공간적 외형과 시간적 운동 특징을 각각 학습한다. 서로 다른 시각의 컨볼루션 커널을 공유함으로써 공간적 특징과 시간적 특징은 상호 보완적으로 학습되며, 서로 이로움을 주고받는다. 이후 보완적인 특징들은 엔드 투 엔드로 학습되는 가중치 합산을 통해 융합된다. 제안한 방법은 대규모 벤치마크에서 최고 성능을 달성하였으며, Moments in Time Challenge 2018에서 1위를 차지하였다. 또한, 각 시각의 학습된 가중치 계수를 기반으로 공간적 특징과 시간적 특징의 기여도를 정량화할 수 있다. 이러한 분석은 모델의 해석 가능성에 대한 통찰을 제공하며, 향후 영상 인식을 위한 알고리즘 설계에도 도움이 될 수 있다.