11일 전

크로스모달 공감 네트워크를 통한 약한 감독 하의 시계열 동작 로컬라이제이션

Fa-Ting Hong, Jia-Chang Feng, Dan Xu, Ying Shan, Wei-Shi Zheng
크로스모달 공감 네트워크를 통한 약한 감독 하의 시계열 동작 로컬라이제이션
초록

약한 감독 하의 시계열 행동 탐지(WS-TAL)는 비디오 수준의 카테고리 레이블만을 이용하여 주어진 비디오 내에서 행동 인스턴스를 탐지하는 도전적인 과제이다. 기존 연구들은 외형적 특징과 운동적 특징을 모두 활용하지만, 이들 특징을 적절히 통합하지 않고 단순히 특징 연결이나 점수 수준의 융합 방식을 사용한다. 본 연구에서는 사전 학습된 추출기(예: I3D)로부터 추출한 특징이 WS-TAL 작업에 특화된 특징이 아니므로, 작업과 무관한 정보의 중복을 줄이기 위해 특징 재보정이 필요하다고 주장한다. 이를 해결하기 위해 우리는 교차 모달 일치 네트워크(CO2-Net)를 제안한다. CO2-Net에서는 동일한 두 개의 새로운 교차 모달 일치 모듈(CCM)을 도입하여, 주 모달의 전역 정보와 보조 모달의 교차 모달 국소 정보를 활용해 작업과 무관한 정보의 중복을 필터링하는 교차 모달 주의 메커니즘을 설계한다. 또한 각 CCM에서 도출된 주의 가중치를 다른 CCM의 주의 가중치에 대한 의사 타겟(pseudo target)으로 간주하여, 두 CCM이 도출하는 예측 간 일관성을 유지함으로써 상호 학습(mutual learning) 방식을 구현한다. 마지막으로, 일반적으로 사용되는 시계열 행동 탐지 데이터셋인 THUMOS14와 ActivityNet1.2에서 광범위한 실험을 수행하여 제안한 방법의 효과를 검증하였으며, 최신 기술(SOTA) 수준의 성능을 달성하였다. 실험 결과는 제안한 교차 모달 일치 모듈이 시계열 행동 탐지에 더 대표적인 특징을 생성할 수 있음을 입증하였다.

크로스모달 공감 네트워크를 통한 약한 감독 하의 시계열 동작 로컬라이제이션 | 최신 연구 논문 | HyperAI초신경