2달 전

다중 세분화 생성기 для 시간적 행동 제안

Yuan Liu; Lin Ma; Yifeng Zhang; Wei Liu; Shih-Fu Chang
다중 세분화 생성기 для 시간적 행동 제안
초록

시간적 행동 제안 생성은 미리 잘라내지 않은 비디오에서 인간의 행동을 포함하는 비디오 세그먼트를 위치시키는 중요한 작업입니다. 본 논문에서는 다양한 세부도에서 시간적 행동 제안을 수행하기 위해 위치 임베딩 정보가 포함된 비디오 시각적 특성을 활용하는 다중 세부도 생성기(Multi-Granularity Generator, MGG)를 제안합니다. 먼저, 비디오 시퀀스 내의 풍부한 국소 정보를 활용하기 위해 이차원 매칭 모델(Bilinear Matching Model)을 사용하는 방법을 제안합니다. 이후, 두 가지 구성 요소인 세그먼트 제안 생성기(Segment Proposal Producer, SPP)와 프레임 행동성 생성기(Frame Actionness Producer, FAP)가 결합되어 두 가지 다른 세부도에서 시간적 행동 제안 작업을 수행합니다. SPP는 특징 피라미드(Feature Pyramid) 형태로 전체 비디오를 고려하여 거시적인 관점에서 세그먼트 제안을 생성하며, FAP는 각 비디오 프레임에 대해 더욱 섬세한 행동성 평가를 수행합니다. 우리가 제안한 MGG는 엔드투엔드 방식으로 학습될 수 있습니다. 미세한 프레임 행동성 정보를 이용하여 시간적으로 세그먼트 제안을 조정함으로써, MGG는 공개 THUMOS-14 및 ActivityNet-1.3 데이터셋에서 기존 최신 방법론보다 우수한 성능을 보여줍니다. 또한, MGG가 생성한 제안들을 분류하기 위해 기존의 행동 분류기를 활용하여 비디오 검출 작업에서 경쟁 방법론들 대비 상당한 개선 효과를 얻었습니다.

다중 세분화 생성기 для 시간적 행동 제안 | 최신 연구 논문 | HyperAI초신경