17일 전
STAR-Transformer: 인간 행동 인식을 위한 시공간 교차 주의력 Transformer
Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko

초록
행동 인식 분야에서 시공간 영상과 뼈대 특징의 조합은 인식 성능을 향상시킬 수 있으나, 별도의 모델과 다중 모달 데이터의 특징 표현 균형화가 필요하다. 이러한 문제를 해결하기 위해 본 연구에서는 두 가지 다중 모달 특징을 인식 가능한 벡터로 효과적으로 표현할 수 있는 Spatio-TemporAl cRoss(STAR)-transformer를 제안한다. 먼저 입력 영상과 뼈대 시퀀스로부터 영상 프레임은 전역 격자 토큰으로, 뼈대는 관절 지도 토큰으로 각각 추출된다. 이러한 토큰들은 다중 클래스 토큰으로 집계된 후 STAR-transformer에 입력된다. STAR-transformer 인코더 레이어는 전역 자기주의(FAttn) 모듈과 제안한 진자형 시공간 자기주의(ZAttn) 모듈로 구성되며, 동일하게 연속 디코더는 FAttn 모듈과 제안한 이진 시공간 자기주의(BAttn) 모듈로 구성된다. STAR-transformer는 FAttn, ZAttn, BAttn 모듈의 적절한 조합을 통해 시공간 특징에 대한 효율적인 다중 특징 표현을 학습한다. Penn-Action, NTU RGB+D 60, 120 데이터셋에서의 실험 결과, 기존 최고 성능 기법들과 비교해 제안하는 방법이 유의미한 성능 향상을 달성함을 확인하였다.