2달 전

개인의 대화 제스처 스타일 학습

Shiry Ginosar; Amir Bar; Gefen Kohavi; Caroline Chan; Andrew Owens; Jitendra Malik

초록

인간의 말은 종종 손과 팔의 제스처와 함께 이루어집니다. 오디오 음성 입력이 주어지면, 해당 음성과 함께 할 수 있는 가능한 제스처를 생성합니다. 구체적으로, 단일 화자의 "자연 상태" 독백 음성을 그들의 손과 팔의 움직임으로 교차 모달 변환(cross-modal translation)을 수행합니다. 우리는 라벨링되지 않은 비디오에서 자동 포즈 감지 시스템으로부터 얻은 노이즈가 포함된 의사 지도 데이터(noisy pseudo ground truth)만을 사용하여 학습합니다. 제안된 모델은 정량적 비교에서 기준 방법(baseline methods)보다 크게 우수한 성능을 보입니다. 제스처와 말 사이의 관계에 대한 계산적 이해를 얻기 위한 연구를 지원하기 위해, 사람 특유의 제스처(person-specific gestures) 대규모 비디오 데이터셋을 공개합니다. 비디오, 코드 및 데이터가 포함된 프로젝트 웹사이트는 http://people.eecs.berkeley.edu/~shiry/speech2gesture 에서 확인할 수 있습니다.