vor 2 Monaten

Basisierung auf Gesichtslandmarken zur sprecherunabhängigen audiovisuellen Sprachverbesserung in Mehr-Sprecher-Umgebungen

Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino

Abstract

In dieser Arbeit adressieren wir das Problem der Verbesserung der Sprache eines Sprechers von Interesse in einer Cocktail-Party-Situation, wenn visuelle Informationen des Sprechers von Interesse verfügbar sind. Im Gegensatz zu den meisten früheren Studien lernen wir keine visuellen Merkmale auf typischerweise kleinen audiovisuellen Datensätzen, sondern verwenden einen bereits vorhandenen Gesichtspunktdetektor (trainiert auf einem separaten Bild-Datensatz). Die Landmarks werden von LSTM-basierten Modellen verwendet, um Zeit-Frequenz-Masken zu generieren, die auf das akustische gemischte Sprachspektrogramm angewendet werden. Die Ergebnisse zeigen, dass: (i) Bewegungsmerkmale der Landmarks sehr effektive Merkmale für diese Aufgabe sind, (ii) ähnlich wie in früheren Arbeiten ist die Rekonstruktion des Spektrogramms des Ziel-Sprechers mittels Maskierung erheblich genauer als die direkte Spektrogramm-Rekonstruktion und (iii) die besten Masken sowohl von den Bewegungsmerkmalen der Landmarks als auch vom Eingangsspektrum des gemischten Sprachsignals abhängen. Nach bestem Wissen sind unsere vorgeschlagenen Modelle die ersten Modelle, die auf den begrenzten GRID- und TCD-TIMIT-Datensätzen trainiert und evaluiert wurden und eine sprecherunabhängige Sprachverbesserung in einer Mehrsprecher-Umgebung erreichen.