11일 전

IVT: 3차원 자세 추정을 위한 엔드투엔드 인스턴스 유도 비디오 트랜스포머

Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
IVT: 3차원 자세 추정을 위한 엔드투엔드 인스턴스 유도 비디오 트랜스포머
초록

비디오 3D 인체 자세 추정은 비디오에서 인체 관절의 3D 좌표를 추정하는 것을 목표로 한다. 최근의 트랜스포머 기반 접근 방식은 순차적인 2D 자세에서 시공간 정보를 추출하는 데 초점을 맞추고 있으나, 2D 자세 추정 과정에서 시각적 깊이 특징이 소실되므로 맥락적 깊이 특징을 효과적으로 모델링하지 못한다. 본 논문에서는 이러한 문제를 해결하기 위해 종단적(end-to-end) 프레임워크인 인스턴스 유도형 비디오 트랜스포머(Instance-guided Video Transformer, IVT)로 기존의 접근 방식을 단순화하였다. 이 프레임워크는 시각적 특징에서 시공간적 맥락적 깊이 정보를 효과적으로 학습하고, 비디오 프레임에서 직접 3D 자세를 예측할 수 있도록 한다. 특히, 본 논문에서는 비디오 프레임을 인스턴스 유도형 토큰의 시퀀스로 표현하며, 각 토큰은 특정 인체 인스턴스의 3D 자세를 예측하는 책임을 맡는다. 이러한 토큰들은 인체 중심에서 해당 관절까지의 관절 오프셋을 기반으로 추출되므로, 몸체 구조 정보를 포함하고 있다. 이후 이들 토큰은 IVT에 입력되어 시공간적 맥락적 깊이 정보를 학습한다. 또한, 다수의 인체 간 크기 변동을 효과적으로 처리하기 위해 크로스 스케일 인스턴스 유도형 어텐션 메커니즘을 제안한다. 마지막으로, 각 인체의 3D 자세는 인스턴스 유도형 토큰을 기반으로 좌표 회귀를 통해 복원된다. 널리 사용되는 세 가지 3D 자세 추정 벤치마크에서의 실험 결과, 제안한 IVT는 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다.

IVT: 3차원 자세 추정을 위한 엔드투엔드 인스턴스 유도 비디오 트랜스포머 | 최신 연구 논문 | HyperAI초신경