HyperAIHyperAI

Command Palette

Search for a command to run...

AERO : Sur-résolution audio dans le domaine spectral

Moshe Mandel Or Tal Yossi Adi

Résumé

Nous présentons AERO, un modèle de sur-résolution audio qui traite les signaux vocaux et musicaux dans le domaine spectral. AERO repose sur une architecture encodeur-décodeur avec des connexions de saut similaires à celles du U-Net. Nous optimisons le modèle en utilisant des fonctions de perte dans les domaines temporel et fréquentiel. Plus précisément, nous considérons un ensemble de pertes de reconstruction ainsi que des pertes perceptuelles sous la forme de fonctions de perte adversariales et discriminantes par caractéristiques. Pour mieux gérer l'information de phase, la méthode proposée opère sur le spectrogramme à valeurs complexes en utilisant deux canaux distincts. Contrairement aux travaux antérieurs qui se concentrent principalement sur la concaténation des basses et hautes fréquences pour la sur-résolution audio, la méthode proposée prédit directement toute la gamme de fréquences. Nous démontrons des performances élevées sur une large gamme de taux d'échantillonnage, en considérant à la fois la parole et la musique. AERO surpass les baselines évaluées en termes de Distance Spectrale Logarithmique (Log-Spectral Distance), ViSQOL et du test subjectif MUSHRA. Des échantillons audio et du code sont disponibles à l'adresse suivante : https://pages.cs.huji.ac.il/adiyoss-lab/aero


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp