11일 전

의미 인식 메커니즘을 갖춘 약한 감독 시간 행동 로컬라이제이션을 위한 이중 스트림 네트워크

{Hongbin Wang, Yadong Li, Yu Wang}
의미 인식 메커니즘을 갖춘 약한 감독 시간 행동 로컬라이제이션을 위한 이중 스트림 네트워크
초록

약한 감독 하의 시계열 동작 탐지(weakly-supervised temporal action localization)는 트림되지 않은 비디오에서 비디오 수준의 레이블만을 이용하여 동작의 경계를 탐지하는 것을 목표로 한다. 기존의 대부분의 방법들은 비디오 분류에 가장 민감한 시계열 영역을 탐지하는 데 집중하지만, 프레임 간의 의미적 일관성을 간과한다. 본 논문에서는 각 스플릿(snippet)에 대한 감독 신호가 없음에도 불구하고, 유사한 표현을 가진 스플릿들은 동일한 동작 클래스로 간주되어야 한다는 가정을 제시한다. 이를 위해, 각 동작 카테고리에 해당하는 클래스 중심점(class centroids)을 원소로 하는 학습 가능한 사전(dictionary)을 제안한다. 동일한 동작 클래스로 식별된 스플릿의 표현은 동일한 클래스 중심점에 가까워지도록 유도함으로써, 네트워크가 프레임의 의미를 올바르게 인식하고 부자연스러운 탐지 결과를 피할 수 있도록 한다. 또한, 세부적인 단서를 추출하고 주목할 만한 특징을 강조하기 위해 각각 주의 메커니즘(attention mechanism)과 다중 예제 학습(multiple-instance learning) 전략을 통합한 이중 스트림(framework)을 제안한다. 두 기법의 상호보완성은 모델이 시계열 경계를 보다 정교하게 개선하는 데 기여한다. 마지막으로, 공개된 THUMOS-14 및 ActivityNet-1.3 데이터셋에서 개발된 모델을 검증하였으며, 광범위한 실험과 분석을 통해 기존 방법에 비해 뚜렷한 성능 향상을 달성함을 입증하였다.

의미 인식 메커니즘을 갖춘 약한 감독 시간 행동 로컬라이제이션을 위한 이중 스트림 네트워크 | 최신 연구 논문 | HyperAI초신경