HyperAI

1. Introduction au tutoriel

Le projet DiffVox a été lancé conjointement en mai 2025 par une équipe de recherche de Sony AI, Sony Corporation et de l'Université Queen Mary de Londres. La principale force de ce modèle réside dans sa méthode d'optimisation avancée au moment de l'inférence et dans l'introduction novatrice de contraintes a priori gaussiennes. Ceci lui permet de transformer intelligemment un enregistrement vocal brut en un signal audio de haute qualité qui se rapproche sensiblement de la référence cible et respecte les normes de mixage professionnelles en termes de paramètres. Il s'agit d'un modèle avancé axé sur le transfert de style vocal humain, et l'article associé s'intitule « … ».DiffVox : un modèle différentiable pour la capture et l’analyse des distributions d’effets vocaux"(Reçu par DAFx25)" et "Amélioration de l'optimisation en temps d'inférence pour le transfert de style d'effets vocaux avec une distribution a priori gaussienne(Accepté par WASPAA 2025).

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

2. Exemples de projets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter 2 à 3 minutes et actualiser la page. Avec Safari, la lecture audio peut ne pas être immédiate et nécessite un téléchargement préalable.

Descriptions des paramètres associés

Contrôleur principal et préréglage

Rapid Audio

effetLe panneau de commande principal contient les fonctions de traitement audio de base et les sélections prédéfinies.
illustrerIl s'agit du point d'entrée de toute la chaîne de traitement des effets, chargé de coordonner le travail de tous les modules d'effets.

Rapport sec/humide

effetContrôle du rapport de mélange entre le son sec (son original) et le son traité (son traité)
illustrer:
- 0% : Audio totalement sec, ne diffuse que le son original.
- 50% : Mixage équilibré du son sec et du son traité
- 100% : Son entièrement traité, ne diffuse que du son traité.
applicationUtilisé pour contrôler l'intensité du traitement des effets et éviter le surtraitement.

Sortie audio

effetLe mixage audio final
illustrerLe résultat final après traitement de tous les effets et mélange humide/sec.

Audio sec

effetAudio brut, non traité, sans aucun effet.
illustrerElle préserve les caractéristiques originales de l'enregistrement, le rendant ainsi adapté à la comparaison ou au post-traitement.

Audio humide

effetSon mouillé après tous les effets
illustrerSons incluant tous les effets tels que l'égalisation, la compression, le délai et la réverbération.

Sélectionner un préréglage (1~365)

effetSélection de la bibliothèque d'effets prédéfinis
illustrer:
- Comprend 365 préréglages d'effets réglés par des professionnels
- Couvrant un large éventail de styles musicaux et de caractéristiques sonores
- Il peut servir de point de départ pour des ajustements personnalisés.

égaliseur paramétrique

Équation paramétrique

effetOutils de réglage précis de la tonalité
illustrerEn utilisant plusieurs filtres pour amplifier ou atténuer des bandes de fréquences spécifiques, il est possible de modeler les caractéristiques spectrales du son.

Filtre passe-haut

effetSupprimer les composantes basse fréquence inférieures à une fréquence spécifiée.
application:
- Supprimez les bruits de basse fréquence tels que les bruits de respiration et le bruit du vent.
- Réduire le voile et améliorer la clarté
- Paramètres typiques : 80-120 Hz

Égaliseur à étagère basse fréquence (Égaliseur à étagère basse fréquence)

effet: Amplification ou atténuation globale de toutes les basses fréquences
application:
- Augmentez l'épaisseur et la chaleur du son.
- Réduire les grondements à basse fréquence
- Fréquence typique : 100-250 Hz

Filtre de crête

effetRéglage précis pour des points de fréquence spécifiques
application:
- Élimination des pics de résonance
- Renforcer la sensation de présence vocale
- Correction des problèmes de timbre dans des bandes de fréquences spécifiques

Égaliseur à étagère haute fréquence (égaliseur à étagère haute fréquence)

effetAmplification ou atténuation globale de toutes les hautes fréquences
application:
- Accroître la sensation d'espace et de luminosité
- Réduire les hautes fréquences agressives
- Fréquence typique : 8-12 kHz

Fréquence

effetSélectionnez la fréquence centrale à traiter.
illustrer: Détermine la fréquence de fonctionnement du filtre

Gagner

effetContrôler le degré d'amplification ou d'atténuation de la fréquence
portée-12 dB à +12 dB
Tout de suiteAugmentez cette fréquence
valeur négativeAtténuer cette fréquence

effetContrôler la largeur de la plage de fréquences affectée
illustrer:
- Valeur Q élevéeInfluence limitée, ciblage très précis
- Valeur Q faibleLarge champ d'influence, effet harmonieux
applicationLe Q étroit est utilisé pour une correction précise, tandis que le Q large est utilisé pour un réglage global.

Compresseurs et détendeurs

Compresseur et détendeur

effetProcesseur de plage dynamique
FonctionLe compresseur réduit la plage dynamique, tandis que l'extenseur l'augmente.

Seuil

effetDéfinissez le seuil à partir duquel la compression/expansion commence.
illustrer:
- Les signaux supérieurs à ce niveau seront compressés.
- Les signaux inférieurs à ce niveau seront amplifiés.
portée-60 dB à 0 dB

Rapport de compression

effetContrôler l'intensité de la compression
illustrer:
- 2:1Compression légère
- 4:1Compression moyenne
- 10:1Forte compression
- ∞:1Effet limiteur

Compenser (obtenir une compensation)

effetCompensation de la perte de niveau après compression
application: Rendre le volume après compression équivalent à celui avant compression.

Temps d'attaque

effet: Contrôle la vitesse à laquelle le compresseur démarre.
illustrer:
- Démarrage rapidePréserver l'état transitoire pour en accroître l'impact.
- Démarrage lentIl atténue les transitoires, ce qui donne un son plus doux.
portée0,1-100 ms

Heure de libération

effetContrôler la vitesse à laquelle le compresseur s'arrête de fonctionner
illustrer:
- Libérer rapidementUne récupération rapide peut produire un effet d'aspiration.
- Libération lenteRécupération dynamique plus lente, pour un effet plus naturel.
portée50-1000 ms

Rapport d'expérience

effetContrôler l'intensité de l'expansion
illustrer:
- 1:2Le niveau du signal est divisé par deux lorsqu'il passe en dessous du seuil.
- 1:10Forte capacité d'expansion, réduisant efficacement le bruit.
portée: 0-1 (en fait l'inverse du rapport d'expansion)

Seuil d'expérience

effet: Réglez le niveau de tension de démarrage du prolongateur
illustrerLes signaux inférieurs à ce seuil seront encore atténués.

Coefficient de moyenne RMS

effetContrôler la sensibilité du compresseur à la réponse du signal
illustrer:
- Valeur élevéeSensible au volume moyen, réponse douce
- valeur faibleSensible aux valeurs de crête instantanées, avec un temps de réponse rapide.
applicationAjuster les caractéristiques de réponse en fonction du style musical et des besoins

Retard au tennis de table

Délai de ping-pong

effeteffet de délai stéréo
CaractéristiquesL'écho alterne entre les canaux gauche et droit.

Délai

effetContrôler l'intervalle de temps de l'écho
portée100-1000 ms
application:
- Latence réduite : accroît la sensation d’espace et de profondeur.
- Long délai : crée un effet d’écho perceptible.

Retour

effetContrôle du nombre de répétitions d'écho
illustrer:
- Faibles commentairesUne légère quantité d'écho
- Commentaires élevésLa répétition répétée peut entraîner une auto-excitation.
portée: 0-1

Gagner

effetContrôlez le volume de l'effet de délai.
portée-80 dB à 0 dB

Panoramique de délai impair/pair

effetContrôler respectivement la position de l'image sonore des échos impairs et pairs
illustrer:
- -100: Canal exactement gauche
- 0Centré
- 100Canal droit complet
applicationCréer un effet de mouvement spatial tridimensionnel

Fréquence de passage des basses

effetFiltrage basse fréquence des échos retardés
application:
- Perte à haute fréquence simulant la décroissance naturelle
- Créer un écho chaleureux et non agressif.

Envoyer Reverb

effet: La quantité de signal de retard envoyé à la réverbération
applicationAjouter une sensation d'espace aux échos retardés crée un effet plus naturel.

Réverbération FDN

Réverbération FDN

effetEffet de réverbération numérique de haute qualité
CaractéristiquesBasé sur des réseaux à rétroaction retardée, il offre une simulation spatiale naturelle.

Correction de tonalité (PEQ)

effetL'égaliseur à l'intérieur de l'effet de réverbération.
Fonction:
- Ajustement de la réponse en fréquence de la queue de réverbération
- Contrôlez la brillance ou la chaleur de la réverbération.
- Évitez les conflits de réverbération avec le son principal

Temps de dégradation

effetContrôler le temps de décroissance de la réverbération
illustrer:
- Atténuation courteeffet de petite pièce
- longue atténuationeffet de salle ou d'église
portée0 à 9 secondes
applicationAjustez la durée de réverbération en fonction de la taille et des exigences de l'espace.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{ycy2025diffvox,
     title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
     year={2025},
     booktitle={Proc. DAFx},
}

@inproceedings{ycy2025ito,
     title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior}, 
     author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
     year={2025},
     booktitle={Proc. WASPAA},
}

DiffVox : Modèle De Différenciation Sonore

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle

Descriptions des paramètres associés

Contrôleur principal et préréglage

égaliseur paramétrique

Compresseurs et détendeurs

Retard au tennis de table

Réverbération FDN

Informations sur la citation

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette

DiffVox : Modèle De Différenciation Sonore

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Après avoir accédé à la page Web, vous pouvez utiliser le modèle

Descriptions des paramètres associés

Contrôleur principal et préréglage

égaliseur paramétrique

Compresseurs et détendeurs

Retard au tennis de table

Réverbération FDN

Informations sur la citation

Construire l'IA avec l'IA

Hyper Newsletters