HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

Diese Arbeit untersucht eine grundlegende Frage der menschlichen Wahrnehmung: Kann die Gesichtsgeometrie aus der Stimme eines Menschen abgeleitet werden? Frühere Studien, die sich mit dieser Frage beschäftigt haben, beschränkten sich hauptsächlich auf Fortschritte im Bereich der Bildsynthese und wandelten Stimmen in Gesichtsbilder um, um Korrelationen zu zeigen. Allerdings impliziert die Arbeit im Bildbereich unvermeidlich die Vorhersage von Attributen, die durch Stimmen nicht angedeutet werden können, wie zum Beispiel Hauttextur, Haarschnitt und Hintergrund. Stattdessen untersuchen wir die Fähigkeit zur Rekonstruktion von 3D-Gesichtern, um uns ausschließlich auf die Geometrie zu konzentrieren, was physiologisch viel fundierter ist. Wir schlagen unser Analyseframework „Cross-Modal Perceptionist“ sowohl für überwachtes als auch für nicht überwachtes Lernen vor. Zunächst erstellen wir einen Datensatz namens Voxceleb-3D, der Voxceleb erweitert und gepaarte Stimmen und Gesichtsmaschen enthält, wodurch überwachtes Lernen möglich wird. Anschließend nutzen wir ein Wissensdistillationsmechanismus, um zu erforschen, ob die Gesichtsgeometrie auch ohne gepaarte Stimmen und 3D-Gesichtsdaten unter begrenzter Verfügbarkeit von 3D-Gesichtsscans aus den Stimmen abgeleitet werden kann. Wir gliedern die zentrale Frage in vier Teile auf und führen visuelle und numerische Analysen durch, um darauf zu antworten. Unsere Ergebnisse bestätigen Befunde aus Physiologie und Neurowissenschaften bezüglich der Korrelation zwischen Stimmen und Gesichtsstruktur. Diese Arbeit legt erklärbare Grundlagen für zukünftiges menschenzentriertes Kreuzmodal-Lernen bereit. Siehe unsere Projektseite:https://choyingw.github.io/works/Voice2Mesh/index.html


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp