Perceptionniste Intermodale : La Géométrie du Visage peut-elle être Déduite des Voix ?

Ce travail s'attache à explorer une question fondamentale de la perception humaine : peut-on déduire la géométrie du visage à partir des voix d'une personne ? Les études précédentes abordant cette question n'utilisent que les progrès réalisés dans la synthèse d'images pour convertir les voix en images de visages, afin de montrer des corrélations. Cependant, travailler sur le domaine des images implique inévitablement de prédire des attributs que les voix ne peuvent pas suggérer, tels que les textures faciales, les coupes de cheveux et les arrière-plans. Nous avons opté pour une investigation différente, axée sur la capacité à reconstruire des visages en 3D, afin de nous concentrer uniquement sur la géométrie, qui est beaucoup plus ancrée dans la physiologie. Nous proposons notre cadre d'analyse, le Cross-Modal Perceptionist (Perceptionniste Multimodal), sous deux approches : l'apprentissage supervisé et l'apprentissage non supervisé. Premièrement, nous avons construit un ensemble de données, Voxceleb-3D, qui étend Voxceleb et comprend des paires de voix et de maillages faciaux, rendant ainsi possible l'apprentissage supervisé. Deuxièmement, nous utilisons un mécanisme de distillation de connaissances pour examiner si la géométrie du visage peut encore être déduite des voix sans données appariées de voix et de visages en 3D, en particulier lorsque la disponibilité des scans faciaux en 3D est limitée.Nous décomposons la question centrale en quatre parties et effectuons des analyses visuelles et numériques pour y répondre. Nos résultats sont en accord avec ceux obtenus dans les domaines de la physiologie et de la neurosciences concernant la corrélation entre les voix et les structures faciales. Cette étude offre des bases explicables pour l'apprentissage croisé centré sur l'humain dans le futur.Pour plus d'informations, consultez notre page projet :https://choyingw.github.io/works/Voice2Mesh/index.html