AERO: Audio-Superauflösung im Spektralbereich

Wir präsentieren AERO, ein Modell zur Audiosuperresolution, das Sprach- und Musiksignale im Spektralbereich verarbeitet. AERO basiert auf einer Encoder-Decoder-Architektur mit U-Net-artigen Skip-Verbindungen. Das Modell wird sowohl durch Zeit- als auch durch Frequenzdomänen-Fehlerfunktionen optimiert. Insbesondere betrachten wir eine Reihe von Rekonstruktionsfehlern zusammen mit wahrnehmungsbasierten Fehlern in Form von adversären und Merkmalsdiskriminatoren-Fehlerfunktionen. Um die Phaseninformation besser zu behandeln, verwendet die vorgeschlagene Methode das komplexwertige Spektrogramm mit zwei getrennten Kanälen. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Konkatenation von niedrigen und hohen Frequenzen bei der Audiosuperresolution konzentrieren, prognostiziert die vorgeschlagene Methode direkt den gesamten Frequenzbereich. Wir zeigen eine hohe Leistung über einen breiten Bereich von Abtastwerten sowohl für Sprache als auch für Musik. AERO übertrifft die evaluierten Baseline-Modelle in Bezug auf den Log-Spektralabstand (Log-Spectral Distance), ViSQOL und den subjektiven MUSHRA-Test. Audiosamples und Code sind unter https://pages.cs.huji.ac.il/adiyoss-lab/aero verfügbar.