2달 전

행동 검출을 위한 통합적 상호작용 트랜스포머 네트워크

Faure, Gueter Josmy ; Chen, Min-Hung ; Lai, Shang-Hong
행동 검출을 위한 통합적 상호작용 트랜스포머 네트워크
초록

행동은 우리가 환경과 상호작용하는 방식을 의미하며, 이는 다른 사람들, 물체, 그리고 우리 자신을 포함합니다. 본 논문에서는 대부분의 인간 행동에 필수적이지만 주로 무시되어온 손과 자세 정보를 활용하는 새로운 다중 모달 통합 상호작용 변환기 네트워크(Holistic Interaction Transformer Network, HIT)를 제안합니다. 제안된 "HIT" 네트워크는 RGB 스트림과 포즈 스트림으로 구성된 포괄적인 이모달 프레임워크입니다. 각 스트림은 사람, 물체, 그리고 손 간의 상호작용을 개별적으로 모델링합니다. 각 하위 네트워크 내에서는 선택적으로 개별 상호작용 단위를 결합하는 인트라-모달 집계 모듈(Intra-Modality Aggregation module, IMA)이 도입되었습니다. 각 모달에서 추출된 특징들은 주의 기반 융합 메커니즘(Attentive Fusion Mechanism, AFM)을 통해 연결됩니다. 마지막으로, 캐시 메모리를 사용하여 시간적 맥락에서 힌트를 추출하여 발생한 행동을 더 정확하게 분류합니다. 우리의 방법은 J-HMDB, UCF101-24, MultiSports 데이터셋에서 이전 접근법들을 크게 능가하며, AVA에서도 경쟁력 있는 결과를 얻었습니다. 코드는 https://github.com/joslefaure/HIT에서 제공될 예정입니다.

행동 검출을 위한 통합적 상호작용 트랜스포머 네트워크 | 최신 연구 논문 | HyperAI초신경