2달 전

스켈레톤 기반 일반 상호작용 행동 인식을 위한 상호 공간-시간 토큰 주의 네트워크

Wen, Yuhang ; Tang, Zixuan ; Pang, Yunsheng ; Ding, Beichen ; Liu, Mengyuan
스켈레톤 기반 일반 상호작용 행동 인식을 위한 상호 공간-시간 토큰 주의 네트워크
초록

상호작용 행동을 인식하는 것은 인간-로봇 상호작용 및 협력에서 중요한 역할을 합니다. 이전 방법들은 후기 융합(late fusion)과 공통 주의 메커니즘(co-attention mechanism)을 사용하여 상호작용 관계를 포착하였으나, 이러한 방법들은 학습 능력이 제한적이거나 더 많은 상호작용 개체에 적응하는 데 비효율적이라는 한계가 있습니다. 각 개체의 사전 정보(priors)가 이미 알려져 있다는 가정 하에, 이들 방법은 주체들의 다양성을 고려한 보다 일반적인 설정에서 평가가 부족합니다. 이러한 문제들을 해결하기 위해, 우리는 공간적, 시간적, 그리고 상호작용 관계를 동시에 모델링하는 Interactive Spatiotemporal Token Attention Network (ISTA-Net)을 제안합니다. 구체적으로, 우리의 네트워크는 다중 다양한 개체들의 움직임을 통합된 방식으로 표현하는 Interactive Spatiotemporal Tokens (ISTs)를 분할하는 토크나이저(tokenizer)를 포함하고 있습니다. 엔티티 차원을 확장함으로써 ISTs는 더 나은 상호작용 표현을 제공합니다. ISTs 내 세 가지 차원에서 공동 학습을 수행하기 위해, 다중 헤드 자기 주의(multi-head self-attention) 블록과 3D 컨볼루션을 통합한 블록이 설계되었습니다. 이를 통해 토큰 간 상관관계를 포착할 수 있습니다. 상관관계를 모델링할 때, 엔티티 순서는 일반적으로 상호작용 행동 인식에 크게 영향을 미치지 않습니다. 이를 해결하기 위해, 교환 가능한 엔티티의 순서성을 제거하기 위한 Entity Rearrangement 기법이 제안되었습니다. 네 가지 데이터셋에서 수행된 광범위한 실험들은 ISTA-Net의 효과성을 검증하며, 최신 연구 방법들을 능가하는 결과를 보여주었습니다. 우리의 코드는 https://github.com/Necolizer/ISTA-Net 에 공개되어 있습니다.

스켈레톤 기반 일반 상호작용 행동 인식을 위한 상호 공간-시간 토큰 주의 네트워크 | 최신 연구 논문 | HyperAI초신경