Command Palette
Search for a command to run...
Audio-Superauflösung mittels neuronalen Netzen
Audio-Superauflösung mittels neuronalen Netzen
Kuleshov Volodymyr Enam S. Zayd Ermon Stefano
Zusammenfassung
Wir stellen eine neue Audioverarbeitungstechnik vor, die mithilfe tiefer konvolutioneller Neuronaler Netze die Abtastfrequenz von Signalen wie Sprache oder Musik erhöht. Unser Modell wird auf Paaren aus niedrig- und hochwertigen Audio-Beispielen trainiert; im Testbetrieb schätzt es fehlende Proben innerhalb eines niederauflösenden Signals in einem Interpolationsprozess, der der Super-Resolution von Bildern ähnelt. Unser Ansatz ist einfach und setzt keine spezialisierten Audioverarbeitungstechniken voraus; in unseren Experimenten übertrifft er die Baseline-Methoden bei Standardbenchmarks für Sprache und Musik bei Vergrößerungsverhältnissen von 2×, 4× und 6×. Die Methode findet praktische Anwendungen in der Telekommunikation, Kompression und Text-zu-Sprache-Generierung; sie belegt die Wirksamkeit von feed-forward konvolutionellen Architekturen bei einer Audio-Generierungsaufgabe.