
시간적 행동 제안 생성은 미리 잘라내지 않은 비디오에서 인간의 행동을 포함하는 비디오 세그먼트를 위치시키는 중요한 작업입니다. 본 논문에서는 다양한 세부도에서 시간적 행동 제안을 수행하기 위해 위치 임베딩 정보가 포함된 비디오 시각적 특성을 활용하는 다중 세부도 생성기(Multi-Granularity Generator, MGG)를 제안합니다. 먼저, 비디오 시퀀스 내의 풍부한 국소 정보를 활용하기 위해 이차원 매칭 모델(Bilinear Matching Model)을 사용하는 방법을 제안합니다. 이후, 두 가지 구성 요소인 세그먼트 제안 생성기(Segment Proposal Producer, SPP)와 프레임 행동성 생성기(Frame Actionness Producer, FAP)가 결합되어 두 가지 다른 세부도에서 시간적 행동 제안 작업을 수행합니다. SPP는 특징 피라미드(Feature Pyramid) 형태로 전체 비디오를 고려하여 거시적인 관점에서 세그먼트 제안을 생성하며, FAP는 각 비디오 프레임에 대해 더욱 섬세한 행동성 평가를 수행합니다. 우리가 제안한 MGG는 엔드투엔드 방식으로 학습될 수 있습니다. 미세한 프레임 행동성 정보를 이용하여 시간적으로 세그먼트 제안을 조정함으로써, MGG는 공개 THUMOS-14 및 ActivityNet-1.3 데이터셋에서 기존 최신 방법론보다 우수한 성능을 보여줍니다. 또한, MGG가 생성한 제안들을 분류하기 위해 기존의 행동 분류기를 활용하여 비디오 검출 작업에서 경쟁 방법론들 대비 상당한 개선 효과를 얻었습니다.