vor 8 Monaten

Zusammenfassung

Diese Arbeit untersucht eine grundlegende Frage der menschlichen Wahrnehmung: Kann die Gesichtsgeometrie aus der Stimme eines Menschen abgeleitet werden? Frühere Studien, die sich mit dieser Frage beschäftigt haben, beschränkten sich hauptsächlich auf Fortschritte im Bereich der Bildsynthese und wandelten Stimmen in Gesichtsbilder um, um Korrelationen zu zeigen. Allerdings impliziert die Arbeit im Bildbereich unvermeidlich die Vorhersage von Attributen, die durch Stimmen nicht angedeutet werden können, wie zum Beispiel Hauttextur, Haarschnitt und Hintergrund. Stattdessen untersuchen wir die Fähigkeit zur Rekonstruktion von 3D-Gesichtern, um uns ausschließlich auf die Geometrie zu konzentrieren, was physiologisch viel fundierter ist. Wir schlagen unser Analyseframework „Cross-Modal Perceptionist“ sowohl für überwachtes als auch für nicht überwachtes Lernen vor. Zunächst erstellen wir einen Datensatz namens Voxceleb-3D, der Voxceleb erweitert und gepaarte Stimmen und Gesichtsmaschen enthält, wodurch überwachtes Lernen möglich wird. Anschließend nutzen wir ein Wissensdistillationsmechanismus, um zu erforschen, ob die Gesichtsgeometrie auch ohne gepaarte Stimmen und 3D-Gesichtsdaten unter begrenzter Verfügbarkeit von 3D-Gesichtsscans aus den Stimmen abgeleitet werden kann. Wir gliedern die zentrale Frage in vier Teile auf und führen visuelle und numerische Analysen durch, um darauf zu antworten. Unsere Ergebnisse bestätigen Befunde aus Physiologie und Neurowissenschaften bezüglich der Korrelation zwischen Stimmen und Gesichtsstruktur. Diese Arbeit legt erklärbare Grundlagen für zukünftiges menschenzentriertes Kreuzmodal-Lernen bereit. Siehe unsere Projektseite:https://choyingw.github.io/works/Voice2Mesh/index.html

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Any-to-Any

Multimodal

Aufgabe

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Multimodale Darstellung

Any-to-Any

Multimodal

Aufgabe

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden? | Paper | HyperAI

Command Palette

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Kreuzmodale Wahrnehmungsforscher: Kann die Gesichtsgeometrie aus Stimmen abgeleitet werden?

Wu Cho-Ying ; Hsu Chin-Cheng ; Neumann Ulrich

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters