
초록
비디오에서 시공간 특성 학습은 컴퓨터 비전의 기본적인 문제입니다. 본 논문에서는 Appearance-and-Relation Network (ARTNet)이라는 새로운 아키텍처를 제시하여 비디오 표현을 엔드투엔드 방식으로 학습합니다. ARTNet은 Appearance와 Relation을 각각 명시적으로 모델링하는 것을 목표로 하는 일반적인 구성 요소인 SMART 블록을 쌓아서 구성됩니다. 특히, SMART 블록은 시공간 학습 모듈을 공간적 모델링을 위한 Appearance 분기와 시간적 모델링을 위한 Relation 분기로 분리합니다. Appearance 분기는 각 프레임의 픽셀이나 필터 응답의 선형 조합 기반으로 구현되며, Relation 분기는 여러 프레임 간의 픽셀이나 필터 응답 간의 곱셈 상호작용 기반으로 설계됩니다. 우리는 Kinetics, UCF101, 그리고 HMDB51 세 가지 동작 인식 벤치마크에서 실험을 수행하여 SMART 블록이 3D 컨볼루션에 비해 시공간 특성 학습에서 명확한 개선 효과를 보임을 입증하였습니다. 같은 훈련 설정 하에서 ARTNet은 이 세 가지 데이터셋에서 기존 최신 방법들보다 우수한 성능을 달성하였습니다.