17일 전

PAN: 외형의 지속성 학습을 통한 빠른 동작 인식 방향

Can Zhang, Yuexian Zou, Guang Chen, Lei Gan
PAN: 외형의 지속성 학습을 통한 빠른 동작 인식 방향
초록

비디오에서 동적 운동 정보를 효율적으로 모델링하는 것은 행동 인식 작업에 있어 매우 중요하다. 현재 최첨단 방법들은 대부분 밀도 높은 광학 흐름(optical flow)을 운동 정보 표현으로 의존하고 있다. 광학 흐름과 RGB 프레임을 함께 입력으로 사용할 경우 뛰어난 인식 성능을 달성할 수 있지만, 광학 흐름 추출 과정은 매우 시간이 오래 걸린다. 이는 실시간 행동 인식에 있어 명백한 단점이 된다. 본 논문에서는 광학 흐름에 대한 의존도를 줄임으로써 빠른 행동 인식을 가능하게 하는 새로운 접근을 제안한다. 우리의 동기는 행동을 구분하는 데 있어 운동 경계의 미세한 이동이 가장 중요한 요소라는 관찰에서 비롯된다. 이를 바탕으로 새로운 운동 힌트(motion cue)인 '외형 지속성(Persistence of Appearance, PA)'을 설계하였다. 광학 흐름과 달리, PA는 경계부의 운동 정보를 더욱 집중적으로 추출하는 데 초점을 맞추고 있으며, 모든 가능한 운동 벡터에 대해 철저한 패치 단위 탐색을 수행하는 대신, 특징 공간에서 픽셀 단위 차이만 누적함으로써 훨씬 더 효율적이다. 이에 따라 PA는 기존 광학 흐름 대비 운동 모델링 속도에서 1000배 이상 빠르며(8196fps 대비 8fps) 실시간 처리에 매우 적합하다. 또한 PA의 단기적 동적 정보를 장기적 동적 특성으로 효과적으로 통합하기 위해 다양한 시간 척도에서의 관계를 적응적으로 모델링할 수 있는 글로벌 시간 통합 전략인 '다중 시간 척도 집계 풀링(Various-timescale Aggregation Pooling, VAP)'을 제안한다. 마지막으로 제안된 PA와 VAP를 통합하여 강력한 시간적 모델링 능력을 갖춘 통합 프레임워크인 '지속적 외형 네트워크(Persistent Appearance Network, PAN)'를 구성하였다. 6개의 도전적인 행동 인식 벤치마크에서 수행된 광범위한 실험을 통해 PAN이 낮은 FLOPs(연산량)에서도 최근 최첨단 방법들을 능가함을 입증하였다. 코드와 모델은 다음 주소에서 제공된다: https://github.com/zhang-can/PAN-PyTorch.