HyperAIHyperAI

Command Palette

Search for a command to run...

Basisierung auf Gesichtslandmarken zur sprecherunabhängigen audiovisuellen Sprachverbesserung in Mehr-Sprecher-Umgebungen

Giovanni Morrone Luca Pasa Vadim Tikhanoff Sonia Bergamaschi Luciano Fadiga Leonardo Badino

Zusammenfassung

In dieser Arbeit adressieren wir das Problem der Verbesserung der Sprache eines Sprechers von Interesse in einer Cocktail-Party-Situation, wenn visuelle Informationen des Sprechers von Interesse verfügbar sind. Im Gegensatz zu den meisten früheren Studien lernen wir keine visuellen Merkmale auf typischerweise kleinen audiovisuellen Datensätzen, sondern verwenden einen bereits vorhandenen Gesichtspunktdetektor (trainiert auf einem separaten Bild-Datensatz). Die Landmarks werden von LSTM-basierten Modellen verwendet, um Zeit-Frequenz-Masken zu generieren, die auf das akustische gemischte Sprachspektrogramm angewendet werden. Die Ergebnisse zeigen, dass: (i) Bewegungsmerkmale der Landmarks sehr effektive Merkmale für diese Aufgabe sind, (ii) ähnlich wie in früheren Arbeiten ist die Rekonstruktion des Spektrogramms des Ziel-Sprechers mittels Maskierung erheblich genauer als die direkte Spektrogramm-Rekonstruktion und (iii) die besten Masken sowohl von den Bewegungsmerkmalen der Landmarks als auch vom Eingangsspektrum des gemischten Sprachsignals abhängen. Nach bestem Wissen sind unsere vorgeschlagenen Modelle die ersten Modelle, die auf den begrenzten GRID- und TCD-TIMIT-Datensätzen trainiert und evaluiert wurden und eine sprecherunabhängige Sprachverbesserung in einer Mehrsprecher-Umgebung erreichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp