2달 전

비디오 액션 트랜스포머 네트워크

Rohit Girdhar; João Carreira; Carl Doersch; Andrew Zisserman
비디오 액션 트랜스포머 네트워크
초록

비디오 클립에서 인간의 행동을 인식하고 위치를 결정하기 위한 액션 트랜스포머 모델을 소개합니다. 우리는 트랜스포머 스타일 아키텍처를 재활용하여 분류하려는 사람 주변의 시공간적 맥락에서 특징들을 집계합니다. 고해상도, 개인별, 클래스 무관한 쿼리를 사용함으로써 모델이 자발적으로 개개인을 추적하고 다른 사람들의 행동에서 의미론적 맥락을 파악하도록 학습되는 것을 보여줍니다. 또한 그 주의 메커니즘이 손과 얼굴에 초점을 맞추도록 학습하는데, 이는 종종 행동을 구분하는 데 중요한 역할을 합니다 - 명시적인 감독 없이 박스와 클래스 라벨만으로도 가능합니다. 우리는 원자 시각 행동(Atomic Visual Actions, AVA) 데이터셋에서 액션 트랜스포머 네트워크를 훈련시키고 테스트하였으며, 단순히 원시 RGB 프레임만을 입력으로 사용하여 기존 최신 기술보다 크게 우수한 성능을 보였습니다.