
초록
우리는 현실적인 영상에서 행동 탐지에 적합한 다중 영역 이중 흐름 R-CNN 모델을 제안한다. 본 연구는 Faster R-CNN [1] 기반의 프레임 단위 행동 탐지에서 출발하여 세 가지 주요 기여를 한다: (1) 운동 영역 제안 네트워크(motion region proposal network)가 고품질의 제안 영역을 생성함을 보이며, 이는 외형 영역 제안 네트워크(appearance region proposal network)의 제안과 상호보완적인 성질을 가짐; (2) 여러 프레임에 걸쳐 광류(optical flow)를 중첩함으로써 프레임 단위 행동 탐지 성능이 크게 향상됨을 입증; (3) Faster R-CNN 모델 내에 다중 영역 구조를 도입하여 신체 부위에 대한 보완 정보를 추가함. 이후 프레임 단위 탐지 결과를 비터비(Viterbi) 알고리즘을 이용해 연결하고, 최대 부분배열(maximum subarray) 방법을 활용하여 행동의 시간적 위치를 정확히 추정한다. UCF-Sports, J-HMDB, UCF101 행동 탐지 데이터셋에서의 실험 결과는 제안하는 방법이 프레임-mAP와 비디오-mAP 모두에서 기존 최고 성능 대비 유의미한 성능 향상을 보였음을 확인하였다.