16일 전
시계열 동작 로컬라이제이션 향상: 순환 메커니즘을 통한 고급 S6 모델링
Sangyoun Lee, Juho Jung, Changdae Oh, Sunghee Yun

초록
시간 행동 로컬라이제이션(Temporal Action Localization, TAL)은 영상 분석에서 핵심적인 과제로, 행동의 정확한 시작 및 종료 시점을 식별하는 것을 목표로 한다. 기존의 CNN, RNN, GCN, Transformer 등의 방법들은 장거리 의존성과 시간적 인과관계를 효과적으로 포착하는 데 한계를 가지고 있다. 이러한 문제를 해결하기 위해, 우리는 선택적 상태 공간 모델(Selective State Space Model, S6)을 활용한 새로운 TAL 아키텍처를 제안한다. 본 연구는 특징 집약형 이중 S6 블록(Feature Aggregated Bi-S6 block), 이중 이중 S6 구조(Dual Bi-S6 structure), 그리고 순환 메커니즘을 통합함으로써 파라미터 복잡도 증가 없이 시간적 및 채널별 의존성 모델링을 강화한다. 표준 데이터셋에서 실시한 광범위한 실험 결과, THUMOS-14에서 mAP 74.2%, ActivityNet에서 42.9%, FineAction에서 29.6%, HACS에서 45.8%의 최신 기술 수준 성능을 달성하였다. 제거 실험(Ablation study)을 통해 스템 모듈(Stem module) 내 이중 구조와 순환 메커니즘이 전통적 접근 방식을 능가함을 입증하였다. 본 연구 결과는 S6 기반 모델이 TAL 작업에서 큰 잠재력을 지닌다는 점을 보여주며, 향후 연구의 기반을 마련한다.