11일 전

DCAN: 이중 컨텍스트 집합을 통한 시계열 동작 탐지 개선

Guo Chen, Yin-Dong Zheng, Limin Wang, Tong Lu
DCAN: 이중 컨텍스트 집합을 통한 시계열 동작 탐지 개선
초록

시간 행동 탐지(Temporal Action Detection)는 비디오 내 행동의 경계를 식별하는 것을 목표로 한다. 기존의 경계 매칭 기반 방법은 가능한 모든 경계 매칭을 나열하고 계산하여 후보 구간(proposals)을 생성한다. 그러나 이러한 방법들은 경계 예측 시 장거리 맥락 정보의 집약을 간과하고 있다. 또한, 인접한 매칭 간에 유사한 의미적 특성이 존재하기 때문에, 밀집하게 생성된 매칭들에 대한 국소적 의미적 집약은 의미적 풍부성과 구별력을 향상시키지 못한다. 본 논문에서는 고급 품질의 행동 후보 구간을 생성하기 위해 경계 수준과 후보 구간 수준에서 두 가지 수준의 맥락 정보를 집약하는 엔드투엔드(end-to-end) 후보 생성 방법인 이중 맥락 집약 네트워크(Dual Context Aggregation Network, DCAN)를 제안한다. 구체적으로, 경계 수준에서 부드러운 맥락 집약과 정밀한 경계 평가를 달성하기 위해 다중 경로 시간적 맥락 집약(Multi-Path Temporal Context Aggregation, MTCA)을 설계하였다. 매칭 평가를 위해 후보 구간 수준에서 맥락 정보를 집약하고, 거친 단계에서 세밀한 단계로 매칭 맵을 정교화하는 계층적 매칭( Coarse-to-fine Matching, CFM)을 제안하였다. 제안한 방법은 ActivityNet v1.3 및 THUMOS-14에서 광범위한 실험을 수행하였으며, ActivityNet v1.3에서 평균 mAP 35.39%를 달성하고, THUMOS-14에서는 [email protected] 기준 mAP 54.14%를 기록하여 DCAN이 고품질의 후보 구간을 생성하고 최신 기술 수준의 성능을 달성함을 입증하였다. 코드는 https://github.com/cg1177/DCAN 에 공개된다.

DCAN: 이중 컨텍스트 집합을 통한 시계열 동작 탐지 개선 | 최신 연구 논문 | HyperAI초신경