2달 전

ACSNet: 액션-콘텍스트 분리 네트워크를 이용한 약한 감독 하의 시간적 행동 위치 추정

Ziyi Liu; Le Wang; Qilin Zhang; Wei Tang; Junsong Yuan; Nanning Zheng; Gang Hua
ACSNet: 액션-콘텍스트 분리 네트워크를 이용한 약한 감독 하의 시간적 행동 위치 추정
초록

Weakly-supervised Temporal Action Localization (WS-TAL)의 목적은 비디오 레벨 감독만으로 트림되지 않은 비디오에서 모든 행동 인스턴스를 정확히 위치화하는 것이다. 훈련 중 프레임 레벨 주석이 부족하기 때문에 현재 WS-TAL 방법들은 비디오 레벨 분류 작업에 기여하는 전경 조각 또는 프레임을 위치화하기 위해 주의 메커니즘에 의존한다. 이 전략은 종종 맥락과 실제 행동을 혼동하여 위치화 결과에 영향을 미친다. 행동과 맥락을 구분하는 것은 정밀한 WS-TAL의 핵심 문제이지만, 매우 어려우며 문헌에서 대부분 무시되어 왔다. 본 논문에서는 맥락을 명시적으로 고려하여 정확한 행동 위치화를 수행하는 Action-Context Separation Network (ACSNet)을 소개한다. 이 네트워크는 두 가지 분기(즉, 전경-배경 분기와 행동-맥락 분기)로 구성된다. 전경-배경 분기는 먼저 전체 비디오 내에서 전경과 배경을 구분하고, 행동-맥락 분기는 이를 한 단계 더 나아가 전경을 행동과 맥락으로 나눈다. 우리는 비디오 조각들을 두 개의 잠재적 구성 요소(즉, 긍정적 구성 요소와 부정적 구성 요소)와 연관시키며, 이들의 다양한 조합은 효과적으로 전경, 행동 및 맥락을 특성화할 수 있다. 또한, 우리는 보조 맥락 범주를 포함한 확장된 라벨을 도입하여 행동-맥락 구분 학습을 용이하게 한다. THUMOS14 및 ActivityNet v1.2/v1.3 데이터셋에서 수행된 실험은 ACSNet이 기존 최신 WS-TAL 방법들보다 크게 우수함을 입증한다.

ACSNet: 액션-콘텍스트 분리 네트워크를 이용한 약한 감독 하의 시간적 행동 위치 추정 | 최신 연구 논문 | HyperAI초신경