2달 전

다중 모달 인식론자: 음성으로부터 얼굴 구조를 파악할 수 있을까?

Wu, Cho-Ying ; Hsu, Chin-Cheng ; Neumann, Ulrich
다중 모달 인식론자: 음성으로부터 얼굴 구조를 파악할 수 있을까?
초록

이 연구는 인간의 인지에서 근본적인 질문을 탐구합니다: 음성으로부터 얼굴의 기하학적 구조를 추출할 수 있는가? 이 질문에 대해 이전 연구들은 주로 이미지 합성 기술의 발전을 활용하여 음성을 얼굴 이미지로 변환하여 상관관계를 보여주었지만, 이미지 영역에서 작업하는 것은 음성이 제공하지 않는 속성들을 예측해야 하는 불가피한 문제를 초래합니다. 이러한 속성에는 피부 질감, 헤어스타일, 배경 등이 포함됩니다. 대신 우리는 기하학적 구조에만 집중하여 더 생리적으로 근거를 둔 접근 방식을 취하기 위해 3D 얼굴 재구성을 조사하였습니다. 우리는 감독 학습과 비감독 학습 모두에서 적용 가능한 분석 프레임워크인 크로스-모달 퍼셉셔니스트(Cross-Modal Perceptionist)를 제안합니다. 첫째, Voxceleb 데이터셋을 확장하여 음성과 3D 얼굴 메시가 짝을 이루는 Voxceleb-3D 데이터셋을 구성하였습니다. 이 데이터셋은 감독 학습이 가능하도록 합니다. 둘째, 3D 얼굴 스캔의 사용이 제한된 상황에서도 짝을 이루는 음성과 3D 얼굴 데이터 없이도 얼굴의 기하학적 구조를 추출할 수 있는지를 연구하기 위해 지식 증류 메커니즘(knowledge distillation mechanism)을 사용하였습니다. 우리는 주요 질문을 네 부분으로 나누고 시각적 및 수치적 분석을 수행하여 이를 해결하였습니다. 우리의 결과는 음성과 얼굴 구조 사이의 상관관계에 대한 생리학 및 신경과학의 발견들과 일치합니다. 이 연구는 미래의 인간 중심 크로스-모달 학습에 설명 가능한 기반을 제공합니다. 프로젝트 페이지를 참조하세요: https://choyingw.github.io/works/Voice2Mesh/index.html

다중 모달 인식론자: 음성으로부터 얼굴 구조를 파악할 수 있을까? | 최신 연구 논문 | HyperAI초신경