16일 전

약한 감독 하의 시계열 동작 로컬라이제이션을 위한 액션 유닛 메모리 네트워크

Wang Luo, Tianzhu Zhang, Wenfei Yang, Jingen Liu, Tao Mei, Feng Wu, Yongdong Zhang
약한 감독 하의 시계열 동작 로컬라이제이션을 위한 액션 유닛 메모리 네트워크
초록

약한 감독(Temporal Action Localization)은 학습 시 프레임 수준의 레이블 없이 영상 수준의 레이블만을 이용하여 비정형 영상(untimed videos) 내에서 행동을 탐지하고 정렬하는 것을 목표로 한다. 그러나 프레임 수준의 애노테이션이 없기 때문에, 정렬의 완전성( localization completeness)을 달성하는 것과 배경 간섭(background interference)을 완화하는 것이 어려운 과제이다. 본 논문에서는 이러한 두 가지 과제를 해결하기 위해 행동 단위 메모리 벡터(Action Unit Memory Bank)를 학습하는 행동 단위 메모리 네트워크(Action Unit Memory Network, AUMN)를 제안한다. 제안된 AUMN에서는 메모리 벡터를 적응적으로 업데이트하고 행동 단위에 특화된 분류기를 학습하기 위해 두 가지 주의 메커니즘(attention modules)을 설계하였다. 또한 메모리 네트워크의 업데이트를 안내하기 위해 다양성(diversity), 동질성(homogeneity), 희소성(sparse)이라는 세 가지 효과적인 메커니즘을 도입하였다. 본 연구는 메모리 네트워크를 이용해 행동 단위를 명시적으로 모델링한 최초의 작업으로, 알려진 바에 따르면 최초의 사례이다. THUMOS14 및 ActivityNet이라는 두 가지 표준 벤치마크에서 수행된 광범위한 실험 결과는 AUMN이 최신 기술 대비 우수한 성능을 보임을 입증한다. 특히 THUMOS14 데이터셋에서 IoU 임계치 0.1에서 0.5까지의 평균 mAP는 기존의 47.0%에서 52.1%로 유의미하게 향상되었다.

약한 감독 하의 시계열 동작 로컬라이제이션을 위한 액션 유닛 메모리 네트워크 | 최신 연구 논문 | HyperAI초신경