HyperAIHyperAI
il y a 2 mois

AERO : Sur-résolution audio dans le domaine spectral

Mandel, Moshe ; Tal, Or ; Adi, Yossi
AERO : Sur-résolution audio dans le domaine spectral
Résumé

Nous présentons AERO, un modèle de sur-résolution audio qui traite les signaux vocaux et musicaux dans le domaine spectral. AERO repose sur une architecture encodeur-décodeur avec des connexions de saut similaires à celles du U-Net. Nous optimisons le modèle en utilisant des fonctions de perte dans les domaines temporel et fréquentiel. Plus précisément, nous considérons un ensemble de pertes de reconstruction ainsi que des pertes perceptuelles sous la forme de fonctions de perte adversariales et discriminantes par caractéristiques. Pour mieux gérer l'information de phase, la méthode proposée opère sur le spectrogramme à valeurs complexes en utilisant deux canaux distincts. Contrairement aux travaux antérieurs qui se concentrent principalement sur la concaténation des basses et hautes fréquences pour la sur-résolution audio, la méthode proposée prédit directement toute la gamme de fréquences. Nous démontrons des performances élevées sur une large gamme de taux d'échantillonnage, en considérant à la fois la parole et la musique. AERO surpass les baselines évaluées en termes de Distance Spectrale Logarithmique (Log-Spectral Distance), ViSQOL et du test subjectif MUSHRA. Des échantillons audio et du code sont disponibles à l'adresse suivante : https://pages.cs.huji.ac.il/adiyoss-lab/aero

AERO : Sur-résolution audio dans le domaine spectral | Articles de recherche récents | HyperAI