
초록
시각 기반 동작 인식에서 가장 중요한 과제 중 하나는 두 개 이상의 이질적 모달리티(모드)의 공간시적 특징을 단일 특징으로 임베딩하는 것이다. 본 연구에서는 적응형 공간시적 수용 영역을 갖춘 새로운 3D 변형형 트랜스포머(3D deformable transformer)와 크로스모달 학습 기반을 제안한다. 제안하는 3D 변형형 트랜스포머는 3D 변형성, 로컬 조인트 스트라이드, 시간 스트라이드 어텐션의 세 가지 어텐션 모듈로 구성된다. 두 개의 크로스모달 토큰은 3D 변형형 어텐션 모듈에 입력되어 공간시적 상관관계를 반영한 크로스 어텐션 토큰을 생성한다. 로컬 조인트 스트라이드 어텐션은 공간적으로 어텐션 토큰과 포즈 토큰을 결합하는 데 사용된다. 시간 스트라이드 어텐션은 어텐션 모듈 내 입력 토큰 수를 시간적으로 감소시키며, 모든 토큰을 동시에 사용하지 않고도 시간적 표현 학습을 지원한다. 변형형 트랜스포머는 L회 반복되며, 마지막 크로스모달 토큰을 결합하여 분류를 수행한다. 제안된 3D 변형형 트랜스포머는 NTU60, NTU120, FineGYM, PennAction 데이터셋에서 검증되었으며, 사전 학습 없이도 기존 최첨단 방법과 유사하거나 더 뛰어난 성능을 보였다. 또한 공간적 조인트 어텐션과 시간 스트라이드 어텐션을 활용하여 동작 인식 중 중요한 관절과 상관관계를 시각화함으로써, 동작 인식에 대한 설명 가능성을 갖춘 잠재적 가능성을 제시하였다.