11일 전
당신은 한 번만 본다: 실시간 시공간 행동 위치 지정을 위한 통합 CNN 아키텍처
Okan Köpüklü, Xiangyu Wei, Gerhard Rigoll

초록
시공간 행동 위치 추정(Spatiotemporal action localization)은 설계된 아키텍처에 두 가지 정보를 통합해야 한다: (1) 이전 프레임들로부터의 시계열 정보와 (2) 핵심 프레임(키 프레임)으로부터의 공간 정보. 현재 최첨단 기법들은 이러한 정보를 별도의 네트워크로 추출하고, 탐지 결과를 얻기 위해 추가적인 융합 메커니즘을 사용한다. 본 연구에서는 영상 스트림에서 실시간 시공간 행동 위치 추정을 위한 통합형 CNN 아키텍처인 YOWO를 제안한다. YOWO는 단일 단계(single-stage) 아키텍처로서, 시간 정보와 공간 정보를 동시에 추출하고, 하나의 평가 과정에서 영상 클립으로부터 경계 박스(bounding boxes)와 행동 확률을 직접 예측한다. 전체 아키텍처가 통합되어 있기 때문에, 엔드 투 엔드(end-to-end) 최적화가 가능하다. YOWO는 빠른 처리 속도를 제공하며, 16프레임 입력 클립에서는 초당 34프레임, 8프레임 입력 클립에서는 초당 62프레임을 처리할 수 있어 현재까지 시공간 행동 위치 추정 작업에서 가장 빠른 최첨단 아키텍처이다. 특히, YOWO는 J-HMDB-21과 UCF101-24 데이터셋에서 기존 최고 성능 대비 각각 약 3%, 약 12%의 놀라운 성능 향상을 기록했다. 더불어 YOWO는 AVA 데이터셋에서도 경쟁력 있는 성능을 보이는 유일한 단일 단계 아키텍처로, 처음으로 이를 달성하였다. 본 연구의 코드와 사전 학습된 모델은 공개적으로 제공된다.