16일 전
단일 샷 동작 보완을 위한 트랜스포머
Yinglin Duan, Tianyang Shi, Zhengxia Zou, Yenan Lin, Zhehui Qian, Bohan Zhang, Yi Yuan

초록
모션 보완은 영화 및 게임 응용 분야에서 매우 중요한 의미를 지닌 도전적인 문제로, 오랫동안 논의되어온 주제이다. 다양한 모션 보완 시나리오(인터폴레이션, 인필링, 블렌딩)에 대해 기존의 대부분의 방법들은 각각의 경우에 맞춰 별도로 설계된 접근 방식을 사용해 왔다. 본 연구에서는 통합된 프레임워크 하에서 여러 모션 보완 문제를 해결할 수 있는 간단하면서도 효과적인 방법을 제안하며, 다양한 평가 설정에서 최신의 상태를 달성하였다. 최근 주목받는 어텐션 기반 모델의 성공에 영감을 받아, 우리는 모션 보완 문제를 시퀀스에서 시퀀스로의 예측 문제로 재정의하였다. 제안하는 방법은 두 가지 모듈로 구성된다. 첫 번째는 입력 모션의 장거리 의존성을 학습하는 표준 트랜스포머 인코더(자기 어텐션 구조를 사용), 두 번째는 시간 정보를 모델링하고 핵심 프레임을 구분하는 학습 가능한 믹스 임베딩 모듈이다. 본 방법은 자동 회귀(Autoregressive) 방식 없이도 실시간으로 단일 순방향 전파 내에서 여러 개의 누락된 프레임을 동시에 예측할 수 있다. 마지막으로, 음악-댄스 응용 분야에서 제안한 방법의 효과성을 실험적으로 입증하였다.