HyperAIHyperAI

Command Palette

Search for a command to run...

AERO: Audio-Superauflösung im Spektralbereich

Moshe Mandel Or Tal Yossi Adi

Zusammenfassung

Wir präsentieren AERO, ein Modell zur Audiosuperresolution, das Sprach- und Musiksignale im Spektralbereich verarbeitet. AERO basiert auf einer Encoder-Decoder-Architektur mit U-Net-artigen Skip-Verbindungen. Das Modell wird sowohl durch Zeit- als auch durch Frequenzdomänen-Fehlerfunktionen optimiert. Insbesondere betrachten wir eine Reihe von Rekonstruktionsfehlern zusammen mit wahrnehmungsbasierten Fehlern in Form von adversären und Merkmalsdiskriminatoren-Fehlerfunktionen. Um die Phaseninformation besser zu behandeln, verwendet die vorgeschlagene Methode das komplexwertige Spektrogramm mit zwei getrennten Kanälen. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Konkatenation von niedrigen und hohen Frequenzen bei der Audiosuperresolution konzentrieren, prognostiziert die vorgeschlagene Methode direkt den gesamten Frequenzbereich. Wir zeigen eine hohe Leistung über einen breiten Bereich von Abtastwerten sowohl für Sprache als auch für Musik. AERO übertrifft die evaluierten Baseline-Modelle in Bezug auf den Log-Spektralabstand (Log-Spectral Distance), ViSQOL und den subjektiven MUSHRA-Test. Audiosamples und Code sind unter https://pages.cs.huji.ac.il/adiyoss-lab/aero verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp