11일 전
PAT: 밀집 다중 레이블 동작 탐지를 위한 위치 인지 트랜스포머
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton

초록
우리는 비디오 내에서 복잡한 시간적 동시 발생 행동 의존성을 다중 스케일 시간 특징을 활용하여 학습하는 트랜스포머 기반의 네트워크인 PAT를 제안한다. 기존의 방법들에서는 트랜스포머 내의 자체 주의(self-attention) 메커니즘이 시간적 위치 정보를 상실하게 되는데, 이는 강건한 행동 탐지에 필수적인 요소이다. 이러한 문제를 해결하기 위해, 우리는 (i) 자체 주의 메커니즘에 상대적 위치 인코딩을 통합하고, (ii) 최근의 트랜스포머 기반 접근법들이 사용하는 계층적 구조와는 달리, 새로운 비계층적 네트워크를 설계하여 다중 스케일 시간 관계를 효과적으로 활용한다. 우리는 계층적 접근법에서 자체 주의 메커니즘과 다중 하향 샘플링 과정을 결합함으로써 위치 정보 손실이 증가한다고 주장한다. 제안된 방법의 성능은 두 가지 도전적인 밀도 높은 다중 레이블 기준 데이터셋에서 평가되었으며, Charades 및 MultiTHUMOS 데이터셋에서 각각 기존 최고 성능 대비 1.1%, 0.6%의 mAP 향상을 보이며, 각각 26.5%, 44.6%의 새로운 최고 수준의 mAP를 달성하였다. 또한 제안한 네트워크의 다양한 구성 요소가 미치는 영향을 검토하기 위해 광범위한 아블레이션 연구를 수행하였다.