2달 전

Actor-agnostic Multi-label Action Recognition with Multi-modal Query 액터 무관 다중 라벨 행동 인식 및 다중 모달 쿼리

Mondal, Anindya ; Nag, Sauradip ; Prada, Joaquin M ; Zhu, Xiatian ; Dutta, Anjan
Actor-agnostic Multi-label Action Recognition with Multi-modal Query
액터 무관 다중 라벨 행동 인식 및 다중 모달 쿼리
초록

기존의 행동 인식 방법은 배우자 간의 본질적인 위상학적 및 외관상의 차이로 인해 일반적으로 배우자 특异性를 가지게 됩니다. 이는 인간과 동물 등의 배우자 특이적 자세 추정을 필요로 하여, 모델 설계의 복잡성을 증가시키고 유지 비용을 높입니다. 또한 이러한 방법들은 종종 시각적 모달리티만 학습하고 단일 라벨 분류에 초점을 맞추면서 다른 정보 출처(예: 클래스 이름 텍스트)와 여러 행동的同时发生(동시 발생)를 무시하는 경향이 있습니다. 이러한 제한을 극복하기 위해, 우리는 '배우자 독립적 다중 모달 다중 라벨 행동 인식'이라는 새로운 접근법을 제안합니다. 이 접근법은 인간과 동물 등을 포함한 다양한 유형의 배우자를 위한 통합된 해결책을 제공합니다. 또한, DETR 등의 트랜스포머 기반 객체 검출 프레임워크에서 새로운 Multi-modal Semantic Query Network (MSQNet) 모델을 공식화하였습니다. 이 모델은 시각적 및 텍스트 모달리티를 활용하여 행동 클래스를 더 잘 표현하는 특징을 가지고 있습니다. 배우자 특이적 모델 설계의 제거는 주요 장점으로, completely(완전히) 배우자 자세 추정의 필요성을 없애줍니다. 5개의 공개 벤치마크에서 수행한 광범위한 실험 결과, 우리의 MSQNet은 인간과 동물에 대한 단일 및 다중 라벨 행동 인식 작업에서 최대 50%까지 기존 배우자 특이적 대안들을 일관되게 능가함을 보여주었습니다. 코드는 https://github.com/mondalanindya/MSQNet 에서 제공됩니다.注:在翻译过程中,"同时发生"被翻译为"동시 발생",并在其后加上了括号标注原文。另外,“completely”也被直接翻译并标注了原文以确保信息的完整性。

Actor-agnostic Multi-label Action Recognition with Multi-modal Query 액터 무관 다중 라벨 행동 인식 및 다중 모달 쿼리 | 최신 연구 논문 | HyperAI초신경