11일 전
내 말을 들어봐: 음성 증강 시계적 행동 탐지를 위한 융합적 접근법
Anurag Bagchi, Jazib Mahmood, Dolton Fernandes, Ravi Kiran Sarvadevabhatla

초록
자르지 않은 비디오(Temporal Action Localization, TAL)에 대한 최신 아키텍처들은 RGB와 Flow 모달리티만을 고려해 왔으며, 풍부한 정보를 담고 있는 오디오 모달리티는 완전히 소외된 상태였다. 오디오 융합은 다소 더 쉬운 문제로 간주되는 자르기 완료된(클립 수준의) 행동 인식에 대해 연구된 바 있으나, TAL은 독특한 도전 과제들을 안고 있다. 본 논문에서는 TAL을 위한 간단하면서도 효과적인 융합 기반 접근법을 제안한다. 우리 연구가 최초로 감독형 TAL에서 오디오와 비디오 모달리티를 동시에 고려한 연구라는 점에서, 이는 최신 연구 동향을 고려할 때 의미 있는 기여이다. 실험을 통해 제안한 방법들이 최신의 비디오 중심 TAL 방법들에 대해 일관되게 성능 향상을 이끌어낸다는 것을 입증하였다. 특히, 대규모 벤치마크 데이터셋인 ActivityNet-1.3(54.34 [email protected])과 THUMOS14(57.18 [email protected])에서 새로운 최고 성능을 달성하였다. 실험은 다양한 융합 방식, 모달리티 조합, TAL 아키텍처에 대한 분석을 포함하고 있다. 본 연구의 코드, 모델 및 관련 데이터는 https://github.com/skelemoa/tal-hmo 에서 공개되어 있다.