12일 전

비디오 내 행동 위치 규명을 위한 계층적 자기주의 주의 네트워크

{ Wen-Hsien Fang, Yie-Tarng Chen, Rizard Renanda Adhi Pramono}
비디오 내 행동 위치 규명을 위한 계층적 자기주의 주의 네트워크
초록

이 논문은 비디오 내 행동 지역화를 위한 공간-시간 튜브를 생성하기 위해 새로운 계층적 자기주의 네트워크(Hierarchical Self-Attention Network, HISAN)를 제안한다. HISAN의 핵심은 이중 스트림 컨볼루션 신경망(CNN)과 계층적 양방향 자기주의 메커니즘을 결합하는 것으로, 두 수준의 양방향 자기주의를 통해 장기적 시계열 종속성 정보와 공간적 맥락 정보를 효과적으로 포착함으로써 보다 정밀한 행동 지역화를 가능하게 한다. 또한, 가려짐 또는 배경 혼잡으로 인해 발생할 수 있는 탐지 점수의 일관성 문제를 해결하기 위해 시퀀스 재순위 매기기(Sequence Rescoring, SR) 알고리즘을 도입한다. 더불어, 이중 스트림 네트워크에서의 외관 및 운동 정보뿐 아니라 운동 주목성(motion saliency)까지 통합하는 새로운 융합 방식을 제안하여 카메라 운동의 영향을 완화한다. 시뮬레이션 결과, 제안된 방법은 광범위하게 사용되는 UCF101-24 및 J-HMDB 데이터셋에서 행동 지역화 및 인식 정확도 측면에서 최신 기술과 경쟁 가능한 성능을 달성함을 확인하였다.

비디오 내 행동 위치 규명을 위한 계층적 자기주의 주의 네트워크 | 최신 연구 논문 | HyperAI초신경