11일 전

시간적 구조 탐사 기반 약한 감독 하의 동작 탐지

{ Junsong Yuan, Ning Xu, Enxu Yan, Yuncheng Li, Zhou Ren, Tan Yu}
시간적 구조 탐사 기반 약한 감독 하의 동작 탐지
초록

전체적으로 감독되는 행동 탐지 문제는 비용이 큰 프레임 수준의 레이블에 의존하지만, 약한 감독 행동 탐지(WSAD)는 비디오 수준의 레이블만 필요하기 때문에 실제 응용에 더 실용적이다. 기존의 WSAD 방법들은 각 비디오 세그먼트(프레임의 스택)를 개별적으로 평가함으로써 행동 인스턴스를 탐지한다. 그러나 대부분의 기존 방법은 비디오 세그먼트 간의 시간적 관계를 모델링하지 못하며, 잠재적인 시간 구조를 갖는 행동 인스턴스를 효과적으로 특징화할 수 없다. 이러한 WSAD의 문제를 완화하기 위해, 우리는 시간 구조 탐색(Temporal Structure Mining, TSM) 방법을 제안한다. TSM에서는 각 행동 인스턴스를 다단계 과정으로 모델링하고, 행동 인스턴스 내에서 발생하는 단계의 변화, 즉 시간 구조를 활용한다. 동시에, 비디오의 배경은 배경 단계로 모델링되어, 트림되지 않은 비디오에서 서로 다른 행동 인스턴스를 분리한다. 본 프레임워크에서는 각 세그먼트에서 행동 단계의 존재 확신도를 계산하기 위해 단계 필터(Phase Filters)를 사용한다. 그러나 WSAD 작업에서는 프레임 수준의 레이블이 제공되지 않기 때문에 단계 필터를 직접 학습할 수 없다. 이를 해결하기 위해, 각 세그먼트의 단계를 은닉 변수로 간주한다. 각 단계 필터에서 얻은 세그먼트의 확신도를 기반으로 테이블을 구성하고, 이 테이블을 따라 최대 순환 경로( maximal circulant path)를 탐색함으로써 은닉 변수, 즉 세그먼트의 단계를 결정한다. 세 가지 벤치마크 데이터셋에서 수행된 실험을 통해 제안하는 TSM이 최신 기술 수준의 성능을 입증하였다.

시간적 구조 탐사 기반 약한 감독 하의 동작 탐지 | 최신 연구 논문 | HyperAI초신경