Über die Filterverallgemeinerung für die Bandbreitenerweiterung von Musik mit tiefen neuronalen Netzen

In dieser Arbeit behandeln wir ein Teilthema des umfassenden Bereichs der Audioverbesserung, nämlich die Bandbreiterweiterung musikalischer Audiosignale. Wir formulieren das Problem der Bandbreiterweiterung unter Verwendung von tiefen neuronalen Netzen, wobei ein bandbegrenztes Signal als Eingabe dem Netzwerk bereitgestellt wird, mit dem Ziel, eine Ausgabe mit voller Bandbreite zu rekonstruieren. Unser Hauptbeitrag konzentriert sich auf den Einfluss der Wahl des Tiefpassfilters beim Training und anschließendem Testen des Netzwerks.Für zwei verschiedene state-of-the-art Architekturen, ResNet und U-Net, zeigen wir, dass bei Übereinstimmung der Trainings- und Testfilter Verbesserungen des Signal-Rausch-Verhältnisses (SNR) von bis zu 7 dB erzielt werden können. Wenn jedoch diese Filter unterschiedlich sind, sinkt die Verbesserung erheblich und führt unter bestimmten Trainingsbedingungen sogar zu einem geringeren SNR als das bandbegrenzte Eingangssignal. Um dieses offensichtliche Überanpassen an die Filterform zu vermeiden, schlagen wir eine Datenverstärkungsstrategie vor, die während des Trainings mehrere Tiefpassfilter verwendet und zu einer besseren Generalisierung auf unbekannte Filterbedingungen zur Testzeit führt.