
초록
시간 관계 추론은 시간에 걸쳐 객체나 실체의 의미 있는 변환을 연결하는 능력으로, 지능 종의 근본적인 특성입니다. 본 논문에서는 여러 시간 척도에서 비디오 프레임 간의 시간적 의존성을 학습하고 추론하기 위해 설계된 효과적이고 해석 가능한 네트워크 모듈인 시간 관계 네트워크(Temporal Relation Network, TRN)를 소개합니다. 우리는 TRN이 탑재된 네트워크를 Something-Something, Jester, 그리고 Charades라는 세 가지 최근 비디오 데이터셋을 사용하여 활동 인식 작업에서 평가하였습니다. 이 데이터셋들은 근본적으로 시간 관계 추론에 의존합니다. 우리의 결과는 제안된 TRN이 컨벌루션 신경망에 비디오에서 시간 관계를 발견할 수 있는 뛰어난 능력을 부여함을 보여줍니다. 희소하게 샘플링된 비디오 프레임만으로도 TRN이 탑재된 네트워크는 Something-Something 데이터셋에서 인간-객체 상호작용을 정확히 예측하고, Jester 데이터셋에서는 다양한 인간 제스처를 매우 경쟁력 있는 성능으로 식별할 수 있습니다. 또한 TRN이 탑재된 네트워크는 Charades 데이터셋에서 일상 활동을 인식하는 데 있어 두 스트림 네트워크와 3D 컨벌루션 네트워크보다 우수한 성능을 보였습니다. 추가 분석 결과, 모델들이 비디오에서 직관적이고 해석 가능한 시각적 상식 지식을 학습하였음을 확인할 수 있었습니다.