11일 전

생성적 어텐션 모델링을 통한 약한 감독 하의 동작 위치 특정

Baifeng Shi, Qi Dai, Yadong Mu, Jingdong Wang
생성적 어텐션 모델링을 통한 약한 감독 하의 동작 위치 특정
초록

약한 감독 하의 시계열 행동 탐지(weakly-supervised temporal action localization)는 영상 수준의 행동 레이블만 제공되는 조건에서 행동 탐지 모델을 학습하는 문제이다. 일반적인 프레임워크는 주로 분류 활성화(classification activation)에 의존하며, 이는 주의 모델(attention model)을 활용해 행동과 관련된 프레임을 식별한 후 이를 다양한 클래스로 분류한다. 그러나 이러한 방법은 행동-맥락 혼동(action-context confusion) 문제를 야기한다. 구체적으로, 특정 클래스와 밀접하게 관련된 행동 클립 근처의 맥락 프레임들이 행동 프레임으로 오해되는 현상이 발생한다. 본 논문에서는 프레임 주의도(frame attention)에 조건부로 설정된 클래스 무관(class-agnostic) 프레임별 확률을 조건부 변분 오토인코더(conditional Variational Auto-Encoder, VAE)를 활용해 모델링함으로써 이 문제를 해결하고자 한다. 행동과 맥락이 표현 수준에서 두드러진 차이를 보인다는 관찰에 기반하여, 각 프레임이 주의도에 따라 나타날 확률을 모델링하는 확률적 모델, 즉 조건부 VAE를 학습한다. 주의도에 대해 조건부 확률을 최대화함으로써 행동 프레임과 비행동 프레임이 효과적으로 분리된다. THUMOS14 및 ActivityNet1.2 데이터셋에서 수행한 실험 결과, 제안한 방법이 우수한 성능을 보이며 행동-맥락 혼동 문제를 효과적으로 다룰 수 있음을 입증하였다. 코드는 현재 GitHub에서 공개되어 있다.

생성적 어텐션 모델링을 통한 약한 감독 하의 동작 위치 특정 | 최신 연구 논문 | HyperAI초신경