2달 전
비동기 시간 영역을 이용한 행동 인식
Gunnar A. Sigurdsson; Santosh Divvala; Ali Farhadi; Abhinav Gupta

초록
행동은 단순한 움직임과 궤도를 넘어서: 우리는 먹기 위해 요리를 하고, 마시기 위해 컵을 잡습니다. 비디오에 대한 완전한 이해는 외관 모델링을 넘어 활동의 시퀀스와 의도와 같은 고차원적 구조에 대해 추론하는 것이 필요합니다. 그러나 이러한 것들을 어떻게 모델링하고 추론할까요? 우리는 객체, 행동, 그리고 의도를 포함하는 다양한 활동 측면에 대해 추론하기 위한 완전 연결된 시간적 CRF(Conditional Random Field) 모델을 제안합니다. 이 구조화된 모델의 end-to-end 훈련은 어려운 과제입니다: 추론과 학습을 위해 전체 비디오로 구성된 미니 배치(mini-batch)를 생성해야 하므로, 몇 개의 비디오만으로 이루어진 미니 배치가 생성됩니다. 이는 데이터 포인트 간 높은 상관관계를 초래하여 역전파 알고리즘(backprop algorithm)이 작동하지 않게 만듭니다. 이러한 도전을 해결하기 위해, 우리는 효율적인 end-to-end 훈련을 가능하게 하는 비동기 변분 추론(asynchronous variational inference) 방법을 제시합니다. 우리의 방법은 Charades 벤치마크에서 22.4%의 분류 mAP(mean Average Precision)를 달성하여 기존 최신 기술(17.2% mAP)을 능가하며, 시간적 위치 결정(temporal localization) 작업에서도 동등한 성능 향상을 제공합니다.