15일 전
포즈 트랜스포머(POTR): 비자기적 트랜스포머를 활용한 인간 운동 예측
Angel Martínez-González, Michael Villamizar, Jean-Marc Odobez

초록
우리는 비자기적(non-autoregressive) 인간 동작 예측에 Transformer 아키텍처를 활용할 것을 제안한다. 기존의 최신 RNN 기반 접근법이 이전 예측 결과에 조건을 두는 반면, 본 연구는 쿼리 시퀀스에서 요소들을 병렬로 디코딩하는 방식을 채택한다. 이러한 방식은 계산량이 적고, 시퀀스의 장기적인 요소에 대해 오류 누적이 발생할 가능성을 줄일 수 있다. 본 연구의 기여는 다음과 같이 네 가지로 요약된다: (i) 인간 동작 예측을 시퀀스-투-시퀀스 문제로 재정의하고, 병렬적으로 자세 시퀀스를 추론할 수 있는 비자기적 Transformer 모델을 제안한다; (ii) 입력 시퀀스의 요소들을 사전에 구성한 쿼리 시퀀스로부터 3차원 자세 시퀀스를 디코딩할 수 있는 방법을 제안한다; (iii) 인코더 메모리로부터 스켈레톤 기반의 활동 분류를 수행할 수 있도록 제안하며, 활동을 사전에 식별함으로써 예측 성능 향상을 기대한다; (iv) 단순한 구조임에도 불구하고, 두 개의 공개 데이터셋에서 경쟁 가능한 성능을 달성함을 보여주며, 예상과는 달리 장기 예측보다는 단기 예측에서 더 뛰어난 성능을 보인다.