17일 전
컨텍스추얼 제스처: 맥락 인지 제스처 표현을 통한 동시 제스처 영상 생성
Pinxin Liu, Pengfei Zhang, Hyeongwoo Kim, Pablo Garrido, Ari Sharpio, Kyle Olszewski

초록
말과 함께하는 제스처 생성은 말과 제스처를 동기화함으로써 현실감 있는 아바타를 생성하고 인간-컴퓨터 상호작용을 향상시키는 데 있어 핵심적인 역할을 한다. 최근의 기술 발전에도 불구하고, 기존의 방법들은 음성 신호에서 리듬적 또는 의미적 트리거를 정확히 식별하여 맥락화된 제스처 패턴을 생성하고 픽셀 수준의 사실감을 달성하는 데 어려움을 겪고 있다. 이러한 문제를 해결하기 위해 우리는 세 가지 혁신적인 구성 요소를 통해 말과 제스처 동기화 영상 생성을 개선하는 ‘컨텍스추얼 제스처(Contextual Gesture)’ 프레임워크를 제안한다. 첫째, 시계열적 말-제스처 정렬 기법을 통해 두 모달리티를 시간적으로 연결한다. 둘째, 말의 맥락을 추출하여 운동 패턴 표현에 통합하는 맥락화된 제스처 토큰화 기법을 도입한다. 셋째, 제스처 키포인트 간의 연결 구조를 고려하여 영상 생성 품질을 향상시키는 구조 인식 보정 모듈을 활용한다. 광범위한 실험을 통해 컨텍스추얼 제스처가 현실감 있고 말에 부합하는 제스처 영상을 생성할 뿐만 아니라, 긴 시퀀스 생성 및 영상 제스처 편집 기능을 지원함을 입증하였다. 그 결과는 그림 1에서 확인할 수 있다. 프로젝트 페이지: https://andypinxinliu.github.io/Contextual-Gesture/