11일 전

PDAN: 행동 탐지용 피라미드 확장 주의 네트워크

{Francois Bremond, Gianpiero Francesca, Lorenzo Garattoni, Luca Minciullo, Srijan Das, Rui Dai}
PDAN: 행동 탐지용 피라미드 확장 주의 네트워크
초록

긴 시간 정보와 복잡한 시계열 정보를 다루는 것은 행동 탐지 작업에서 중요한 과제이다. 이 과제는 정제되지 않은 영상에서 행동이 밀집해 존재함에 따라 더욱 심화된다. 기존의 행동 탐지 방법은 긴 영상에서 핵심 시계열 정보를 효과적으로 선택하지 못하는 한계를 지닌다. 이를 해결하기 위해 우리는 확장된 주의력 레이어(Dilated Attention Layer, DAL)를 제안한다. 기존의 시계열 합성곱 레이어와 비교해 DAL은 커널 내 국소 프레임에 주의력 가중치를 할당함으로써 시간 축을 따라 더 우수한 국소 표현을 학습할 수 있다. 또한 DAL을 기반으로 한 계층적 확장 주의망(Pyramid Dilated Attention Network, PDAN)을 제안한다. 서로 다른 확장률을 가진 다수의 DAL을 활용함으로써, PDAN은 낮은 및 높은 시계열 수용 영역 수준에서 국소 세그먼트에 초점을 맞추어 단기적 및 장기적 시계열 관계를 동시에 모델링할 수 있다. 이러한 특성은 PDAN이 긴 정제되지 않은 영상 내 다양한 행동 인스턴스 간의 복잡한 시계열 관계를 효과적으로 처리할 수 있게 한다. 제안한 방법의 효과성과 강건성을 검증하기 위해, 다수의 레이블이 밀집해 annotation된 세 가지 데이터셋(MultiTHUMOS, Charades, Toyota Smarthome Untrimmed, TSU)에서 평가를 수행하였다. 그 결과, PDAN은 모든 데이터셋에서 기존 최고 성능을 기록한 방법들을 초과하는 성능을 보였다.

PDAN: 행동 탐지용 피라미드 확장 주의 네트워크 | 최신 연구 논문 | HyperAI초신경