11일 전

TemporalMaxer: 시계열 행동 탐지를 위한 단일 최대 풀링을 활용한 시계열 컨텍스트 최대화

Tuan N. Tang, Kwonyoung Kim, Kwanghoon Sohn
TemporalMaxer: 시계열 행동 탐지를 위한 단일 최대 풀링을 활용한 시계열 컨텍스트 최대화
초록

시간적 행동 지역화(Temporal Action Localization, TAL)는 비디오 이해 분야에서 비디오 시퀀스 내에서 행동을 식별하고 지역화하는 것을 목표로 하는 도전적인 과제이다. 최근 연구들은 추출된 비디오 클립 특징에 장기적인 시간적 맥락 모델링(Temporal Context Modeling, TCM) 블록을 적용하는 것이 중요하다는 점을 강조하며, 복잡한 자기주의 주의(self-attention) 메커니즘을 활용하는 방향으로 발전해왔다. 본 논문에서는 이 과제를 해결하기 위해 기존의 복잡한 아키텍처 없이도 뛰어난 성능을 달성할 수 있음을 주장하며, 가장 단순한 방법을 제안한다. 이를 위해 우리는 단순하고 파라미터가 없으며 국소 영역에서 작동하는 최대 풀링(max-pooling) 블록을 활용하는 TemporalMaxer를 도입한다. 이 블록은 장기적인 시간적 맥락 모델링을 최소화하면서도 추출된 비디오 클립 특징에서 가장 중요한 정보만을 선별하여 활용함으로써, 보다 효율적인 TAL 모델을 구현한다. 다양한 TAL 데이터셋에서, 자기주의 주의와 같은 장기 TCM을 사용하는 기존 최신 기법들과 비교하여 TemporalMaxer가 우수한 성능을 발휘함을 입증하였으며, 동시에 훨씬 적은 파라미터와 계산 자원을 요구한다. 본 연구의 코드는 공개적으로 제공되며, 다음의 링크에서 확인할 수 있다: https://github.com/TuanTNG/TemporalMaxer

TemporalMaxer: 시계열 행동 탐지를 위한 단일 최대 풀링을 활용한 시계열 컨텍스트 최대화 | 최신 연구 논문 | HyperAI초신경