HyperAIHyperAI

Command Palette

Search for a command to run...

DiffVox : Modèle De Différenciation Sonore

1. Introduction au tutoriel

Construire

Le projet DiffVox a été lancé conjointement en mai 2025 par une équipe de recherche de Sony AI, Sony Corporation et de l'Université Queen Mary de Londres. La principale force de ce modèle réside dans sa méthode d'optimisation avancée au moment de l'inférence et dans l'introduction novatrice de contraintes a priori gaussiennes. Ceci lui permet de transformer intelligemment un enregistrement vocal brut en un signal audio de haute qualité qui se rapproche sensiblement de la référence cible et respecte les normes de mixage professionnelles en termes de paramètres. Il s'agit d'un modèle avancé axé sur le transfert de style vocal humain, et l'article associé s'intitule « … ».DiffVox : un modèle différentiable pour la capture et l’analyse des distributions d’effets vocaux"(Reçu par DAFx25)" et "Amélioration de l'optimisation en temps d'inférence pour le transfert de style d'effets vocaux avec une distribution a priori gaussienne(Accepté par WASPAA 2025).

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

2. Exemples de projets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter 2 à 3 minutes et actualiser la page. Avec Safari, la lecture audio peut ne pas être immédiate et nécessite un téléchargement préalable.

Descriptions des paramètres associés

Contrôleur principal et préréglage

Rapid Audio

  • effetLe panneau de commande principal contient les fonctions de traitement audio de base et les sélections prédéfinies.
  • illustrerIl s'agit du point d'entrée de toute la chaîne de traitement des effets, chargé de coordonner le travail de tous les modules d'effets.

Rapport sec/humide

  • effetContrôle du rapport de mélange entre le son sec (son original) et le son traité (son traité)
  • illustrer:
    • 0% : Audio totalement sec, ne diffuse que le son original.
    • 50% : Mixage équilibré du son sec et du son traité
    • 100% : Son entièrement traité, ne diffuse que du son traité.
  • applicationUtilisé pour contrôler l'intensité du traitement des effets et éviter le surtraitement.

Sortie audio

  • effetLe mixage audio final
  • illustrerLe résultat final après traitement de tous les effets et mélange humide/sec.

Audio sec

  • effetAudio brut, non traité, sans aucun effet.
  • illustrerElle préserve les caractéristiques originales de l'enregistrement, le rendant ainsi adapté à la comparaison ou au post-traitement.

Audio humide

  • effetSon mouillé après tous les effets
  • illustrerSons incluant tous les effets tels que l'égalisation, la compression, le délai et la réverbération.

Sélectionner un préréglage (1~365)

  • effetSélection de la bibliothèque d'effets prédéfinis
  • illustrer:
    • Comprend 365 préréglages d'effets réglés par des professionnels
    • Couvrant un large éventail de styles musicaux et de caractéristiques sonores
    • Il peut servir de point de départ pour des ajustements personnalisés.

égaliseur paramétrique

Équation paramétrique

  • effetOutils de réglage précis de la tonalité
  • illustrerEn utilisant plusieurs filtres pour amplifier ou atténuer des bandes de fréquences spécifiques, il est possible de modeler les caractéristiques spectrales du son.

Filtre passe-haut

  • effetSupprimer les composantes basse fréquence inférieures à une fréquence spécifiée.
  • application:
    • Supprimez les bruits de basse fréquence tels que les bruits de respiration et le bruit du vent.
    • Réduire le voile et améliorer la clarté
    • Paramètres typiques : 80-120 Hz

Égaliseur à étagère basse fréquence (Égaliseur à étagère basse fréquence)

  • effet: Amplification ou atténuation globale de toutes les basses fréquences
  • application:
    • Augmentez l'épaisseur et la chaleur du son.
    • Réduire les grondements à basse fréquence
    • Fréquence typique : 100-250 Hz

Filtre de crête

  • effetRéglage précis pour des points de fréquence spécifiques
  • application:
    • Élimination des pics de résonance
    • Renforcer la sensation de présence vocale
    • Correction des problèmes de timbre dans des bandes de fréquences spécifiques

Égaliseur à étagère haute fréquence (égaliseur à étagère haute fréquence)

  • effetAmplification ou atténuation globale de toutes les hautes fréquences
  • application:
    • Accroître la sensation d'espace et de luminosité
    • Réduire les hautes fréquences agressives
    • Fréquence typique : 8-12 kHz

Fréquence

  • effetSélectionnez la fréquence centrale à traiter.
  • illustrer: Détermine la fréquence de fonctionnement du filtre

Gagner

  • effetContrôler le degré d'amplification ou d'atténuation de la fréquence
  • portée-12 dB à +12 dB
  • Tout de suiteAugmentez cette fréquence
  • valeur négativeAtténuer cette fréquence

Q

  • effetContrôler la largeur de la plage de fréquences affectée
  • illustrer:
    • Valeur Q élevéeInfluence limitée, ciblage très précis
    • Valeur Q faibleLarge champ d'influence, effet harmonieux
  • applicationLe Q étroit est utilisé pour une correction précise, tandis que le Q large est utilisé pour un réglage global.

Compresseurs et détendeurs

Compresseur et détendeur

  • effetProcesseur de plage dynamique
  • FonctionLe compresseur réduit la plage dynamique, tandis que l'extenseur l'augmente.

Seuil

  • effetDéfinissez le seuil à partir duquel la compression/expansion commence.
  • illustrer:
    • Les signaux supérieurs à ce niveau seront compressés.
    • Les signaux inférieurs à ce niveau seront amplifiés.
  • portée-60 dB à 0 dB

Rapport de compression

  • effetContrôler l'intensité de la compression
  • illustrer:
    • 2:1Compression légère
    • 4:1Compression moyenne
    • 10:1Forte compression
    • ∞:1Effet limiteur

Compenser (obtenir une compensation)

  • effetCompensation de la perte de niveau après compression
  • application: Rendre le volume après compression équivalent à celui avant compression.

Temps d'attaque

  • effet: Contrôle la vitesse à laquelle le compresseur démarre.
  • illustrer:
    • Démarrage rapidePréserver l'état transitoire pour en accroître l'impact.
    • Démarrage lentIl atténue les transitoires, ce qui donne un son plus doux.
  • portée0,1-100 ms

Heure de libération

  • effetContrôler la vitesse à laquelle le compresseur s'arrête de fonctionner
  • illustrer:
    • Libérer rapidementUne récupération rapide peut produire un effet d'aspiration.
    • Libération lenteRécupération dynamique plus lente, pour un effet plus naturel.
  • portée50-1000 ms

Rapport d'expérience

  • effetContrôler l'intensité de l'expansion
  • illustrer:
    • 1:2Le niveau du signal est divisé par deux lorsqu'il passe en dessous du seuil.
    • 1:10Forte capacité d'expansion, réduisant efficacement le bruit.
  • portée: 0-1 (en fait l'inverse du rapport d'expansion)

Seuil d'expérience

  • effet: Réglez le niveau de tension de démarrage du prolongateur
  • illustrerLes signaux inférieurs à ce seuil seront encore atténués.

Coefficient de moyenne RMS

  • effetContrôler la sensibilité du compresseur à la réponse du signal
  • illustrer:
    • Valeur élevéeSensible au volume moyen, réponse douce
    • valeur faibleSensible aux valeurs de crête instantanées, avec un temps de réponse rapide.
  • applicationAjuster les caractéristiques de réponse en fonction du style musical et des besoins

Retard au tennis de table

Délai de ping-pong

  • effeteffet de délai stéréo
  • CaractéristiquesL'écho alterne entre les canaux gauche et droit.

Délai

  • effetContrôler l'intervalle de temps de l'écho
  • portée100-1000 ms
  • application:
    • Latence réduite : accroît la sensation d’espace et de profondeur.
    • Long délai : crée un effet d’écho perceptible.

Retour

  • effetContrôle du nombre de répétitions d'écho
  • illustrer:
    • Faibles commentairesUne légère quantité d'écho
    • Commentaires élevésLa répétition répétée peut entraîner une auto-excitation.
  • portée: 0-1

Gagner

  • effetContrôlez le volume de l'effet de délai.
  • portée-80 dB à 0 dB

Panoramique de délai impair/pair

  • effetContrôler respectivement la position de l'image sonore des échos impairs et pairs
  • illustrer:
    • -100: Canal exactement gauche
    • 0Centré
    • 100Canal droit complet
  • applicationCréer un effet de mouvement spatial tridimensionnel

Fréquence de passage des basses

  • effetFiltrage basse fréquence des échos retardés
  • application:
    • Perte à haute fréquence simulant la décroissance naturelle
    • Créer un écho chaleureux et non agressif.

Envoyer Reverb

  • effet: La quantité de signal de retard envoyé à la réverbération
  • applicationAjouter une sensation d'espace aux échos retardés crée un effet plus naturel.

Réverbération FDN

Réverbération FDN

  • effetEffet de réverbération numérique de haute qualité
  • CaractéristiquesBasé sur des réseaux à rétroaction retardée, il offre une simulation spatiale naturelle.

Correction de tonalité (PEQ)

  • effetL'égaliseur à l'intérieur de l'effet de réverbération.
  • Fonction:
    • Ajustement de la réponse en fréquence de la queue de réverbération
    • Contrôlez la brillance ou la chaleur de la réverbération.
    • Évitez les conflits de réverbération avec le son principal

Temps de dégradation

  • effetContrôler le temps de décroissance de la réverbération
  • illustrer:
    • Atténuation courteeffet de petite pièce
    • longue atténuationeffet de salle ou d'église
  • portée0 à 9 secondes
  • applicationAjustez la durée de réverbération en fonction de la taille et des exigences de l'espace.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp