HyperAIHyperAI
vor 2 Monaten

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?

Wu, Cho-Ying ; Hsu, Chin-Cheng ; Neumann, Ulrich
Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?
Abstract

Diese Arbeit untersucht eine grundlegende Frage der menschlichen Wahrnehmung: Kann die Gesichtsgeometrie aus der Stimme eines Menschen abgeleitet werden? Frühere Studien, die sich mit dieser Frage beschäftigt haben, beschränkten sich hauptsächlich auf Fortschritte im Bereich der Bildsynthese und wandelten Stimmen in Gesichtsbilder um, um Korrelationen zu zeigen. Allerdings impliziert die Arbeit im Bildbereich unvermeidlich die Vorhersage von Attributen, die durch Stimmen nicht angedeutet werden können, wie zum Beispiel Hauttextur, Haarschnitt und Hintergrund. Stattdessen untersuchen wir die Fähigkeit zur Rekonstruktion von 3D-Gesichtern, um uns ausschließlich auf die Geometrie zu konzentrieren, was physiologisch viel fundierter ist. Wir schlagen unser Analyseframework „Cross-Modal Perceptionist“ sowohl für überwachtes als auch für nicht überwachtes Lernen vor. Zunächst erstellen wir einen Datensatz namens Voxceleb-3D, der Voxceleb erweitert und gepaarte Stimmen und Gesichtsmaschen enthält, wodurch überwachtes Lernen möglich wird. Anschließend nutzen wir ein Wissensdistillationsmechanismus, um zu erforschen, ob die Gesichtsgeometrie auch ohne gepaarte Stimmen und 3D-Gesichtsdaten unter begrenzter Verfügbarkeit von 3D-Gesichtsscans aus den Stimmen abgeleitet werden kann. Wir gliedern die zentrale Frage in vier Teile auf und führen visuelle und numerische Analysen durch, um darauf zu antworten. Unsere Ergebnisse bestätigen Befunde aus Physiologie und Neurowissenschaften bezüglich der Korrelation zwischen Stimmen und Gesichtsstruktur. Diese Arbeit legt erklärbare Grundlagen für zukünftiges menschenzentriertes Kreuzmodal-Lernen bereit. Siehe unsere Projektseite:https://choyingw.github.io/works/Voice2Mesh/index.html

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden? | Neueste Forschungsarbeiten | HyperAI