Rezeptive Feldanalyse von zeitlichen Faltungsnetzen für die Dereverberation von einohrigem Sprechsignal

Sprachentverberung ist oft eine wichtige Anforderung bei robusten Sprachverarbeitungsaufgaben. Überwachte Deep-Learning-Modelle (DL) erzielen den aktuellen Stand der Technik für die Entverberung von Einkanal-Sprache. Temporale Faltungsnetze (TCNs) werden häufig für die Modellierung von Sequenzen in Sprachverbesserungsaufgaben verwendet. Eine Eigenschaft von TCNs ist, dass sie ein Rezeptivfeld (RF) haben, das von der spezifischen Modellkonfiguration abhängt und die Anzahl der Eingabeframes bestimmt, die beobachtet werden können, um einen einzelnen Ausgabeframe zu produzieren. Es wurde gezeigt, dass TCNs in der Lage sind, die Entverberung von simulierten Sprachdaten durchzuführen; jedoch fehlt in der Literatur eine gründliche Analyse, insbesondere mit Fokus auf das RF. Dieses Papier analysiert die Entverberungsleistung abhängig von der Modellgröße und dem RF von TCNs. Experimente mit dem WHAMR-Korpus, der um Raumimpulsantworten (RIRs) mit größeren T60-Werten erweitert wurde, zeigen, dass ein größeres RF bei der Ausbildung kleinerer TCN-Modelle zu erheblichen Leistungssteigerungen führen kann. Es wird auch demonstriert, dass TCNs von einem breiteren RF profitieren, wenn sie RIRs mit größeren RT60-Werten entverbergen.请注意,"T60" 和 "RT60" 在声学领域通常指的是同一个概念,即混响时间(Reverberation Time)。在德语文献中,这两个术语都可以使用,但为了保持一致性,我在这里统一使用了 "T60"。如果需要进一步区分,请告知。