Kanal-Attention Dichte U-Net für die Mehrkanal-Sprachverbesserung

Kürzlich hat das überwachte Deep Learning erhebliche Aufmerksamkeit für die Sprachverbesserung erfahren. Die aktuell fortschrittlichsten Deep-Learning-Methoden führen diese Aufgabe durch das Lernen einer Ratio- oder Binärmasken durch, die im Zeit-Frequenz-Domäne auf das gemischte Signal angewendet wird, um das klare Sprachsignal zu erzeugen. Trotz der hervorragenden Leistung im Einzelkanal-Setting verlieren diese Ansätze an Effizienz im Mehrkanal-Setting, da die meisten dieser Methoden a) die verfügbare räumliche Information nicht vollständig ausnutzen und b) die tiefe Architektur weiterhin als Black Box betrachten, was sich möglicherweise nicht optimal für die Mehrkanal-Audioverarbeitung eignet. In dieser Arbeit werden diese Nachteile adressiert: a) durch die Nutzung einer komplexen Ratio-Maske anstelle einer Maskierung der Spektrum-Amplitude und insbesondere b) durch die Einführung eines Kanal-Attention-Mechanismus innerhalb der tiefen Architektur, um das Beamforming nachzuahmen. Wir schlagen das Channel-Attention Dense U-Net vor, bei dem die Kanal-Attention-Einheit rekursiv auf die Merkmalskarten in jeder Schicht des Netzwerks angewendet wird, wodurch das Netzwerk in die Lage versetzt wird, nichtlineares Beamforming durchzuführen. Wir demonstrieren die überlegene Leistung des vorgeschlagenen Netzwerks gegenüber den aktuellen State-of-the-Art-Ansätzen am CHiME-3-Datensatz.