DiffVox: Modell Zur Klangdifferenzierung
1. Einführung in das Tutorial

Das DiffVox-Projekt wurde im Mai 2025 von einem Forschungsteam von Sony AI, der Sony Corporation und der Queen Mary University of London gemeinsam veröffentlicht. Die Kernkompetenz dieses Modells liegt in seiner fortschrittlichen Methode zur Optimierung der Inferenzzeit und der innovativen Einführung von Gaußschen Prior-Beschränkungen. Dadurch kann es eine rohe menschliche Sprachaufnahme intelligent in hochwertiges Audio umwandeln, das dem Zielreferenzwert hörbar nahekommt und hinsichtlich der Parameter professionellen Mischstandards entspricht. Es handelt sich um ein fortschrittliches Modell mit Fokus auf den Transfer des menschlichen Sprachstils; die zugehörige Publikation trägt den Titel „…“.DiffVox: Ein differenzierbares Modell zur Erfassung und Analyse von Stimmeffektverteilungen"(Empfangen von DAFx25)" und "Verbesserung der Inferenzzeitoptimierung für den Stiltransfer von Stimmeffekten mit einer Gaußschen Priorverteilung(Akzeptiert von WASPAA 2025).
Dieses Tutorial verwendet standardmäßig eine einzelne RTX 5090 Grafikkarte, aber zum Starten des Programms kann auch eine einzelne RTX 4090 Grafikkarte verwendet werden.
2. Projektbeispiele

3. Bedienungsschritte
1. Starten Sie den Container

2. Nach dem Aufrufen der Webseite können Sie das Modell verwenden
Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie 2–3 Minuten und aktualisieren Sie die Seite. Bei Verwendung von Safari wird die Audiowiedergabe möglicherweise nicht direkt abgespielt und muss zuerst heruntergeladen werden.

Beschreibungen der zugehörigen Parameter
Hauptsteuerung und Voreinstellung
Schnelles Audio
- WirkungDas Hauptbedienfeld enthält die wichtigsten Audioverarbeitungsfunktionen und voreingestellte Auswahlmöglichkeiten.
- veranschaulichenDies ist der Einstiegspunkt für die gesamte Effektverarbeitungskette und ist für die Koordination der Arbeit aller Effektmodule verantwortlich.
Trocken/Nass-Verhältnis
- WirkungSteuerung des Mischungsverhältnisses von trockenem (Original-) und bearbeitetem (bearbeitetem) Signal
- veranschaulichen:
- 0%: Komplett trockenes Audio, gibt nur den Originalton aus.
- 50%: Trocken- und Hallmischung
- 100%: Vollständig bearbeiteter Klang, gibt nur bearbeiteten Klang aus.
- AnwendungDient dazu, die Intensität der Effektverarbeitung zu steuern und eine Überbearbeitung zu vermeiden.
Audioausgabe
- WirkungDas endgültige gemischte Ausgangsaudio
- veranschaulichenDas Endergebnis nach der Bearbeitung aller Effekte und der Nass-/Trockenmischung.
Dry Audio
- WirkungRohes, unbearbeitetes Audiomaterial ohne jegliche Effekte.
- veranschaulichenEs bewahrt die ursprünglichen Eigenschaften der Aufnahme und eignet sich daher zum Vergleich oder zur Nachbearbeitung.
Wet Audio
- WirkungUnverfälschter Klang nach der gesamten Effektbearbeitung
- veranschaulichenKlänge inklusive aller Effekte wie Equalizer, Kompression, Delay und Hall.
Voreinstellung auswählen (1~365)
- WirkungAuswahl der voreingestellten Effektbibliothek
- veranschaulichen:
- Beinhaltet 365 professionell abgestimmte Effekt-Presets
- Umfasst ein breites Spektrum an Musikstilen und Klangcharakteristika
- Es kann als Ausgangspunkt für individuelle Anpassungen dienen.
Parametrischer Equalizer
Parametrischer EQ
- WirkungPräzise Toneinstellungswerkzeuge
- veranschaulichenDurch den Einsatz mehrerer Filter zur Verstärkung oder Dämpfung bestimmter Frequenzbänder lassen sich die spektralen Eigenschaften des Schalls formen.
Hochpassfilter
- WirkungNiederfrequente Komponenten unterhalb einer bestimmten Frequenz entfernen.
- Anwendung:
- Niederfrequente Geräusche wie Atemgeräusche und Windgeräusche entfernen.
- Trübung reduzieren und Klarheit erhöhen
- Typische Einstellungen: 80–120 Hz
Tiefpassfilter (Equalizer mit niedriger Frequenz)
- Wirkung: Gesamtverstärkung oder -dämpfung aller tiefen Frequenzen
- Anwendung:
- Erhöhen Sie die Fülle und Wärme des Klangs.
- Reduziert niederfrequente, dröhnende Geräusche
- Typische Frequenz: 100–250 Hz
Spitzenfilter
- WirkungPräzise Justierung für spezifische Frequenzpunkte
- Anwendung:
- Eliminierung von Resonanzspitzen
- Die Präsenz im Gesang steigern
- Korrektur von Klangfarbenproblemen in bestimmten Frequenzbändern
High Shelf Equalizer
- WirkungGesamtverstärkung oder -dämpfung aller hohen Frequenzen
- Anwendung:
- Das Gefühl von Luftigkeit und Helligkeit steigern
- Reduzierung von scharfen hohen Frequenzen
- Typische Frequenz: 8-12 kHz
Frequenz
- WirkungWählen Sie die zu verarbeitende Mittenfrequenz aus.
- veranschaulichenBestimmt den Frequenzpunkt, an dem der Filter arbeitet
Gewinnen
- WirkungDen Grad der Frequenzverstärkung oder -dämpfung steuern
- Umfang-12 dB bis +12 dB
- Im AugenblickErhöhen Sie diese Frequenz.
- negativer WertDiese Frequenz dämpfen.
Q
- Wirkung: Die Breite des betroffenen Frequenzbereichs steuern
- veranschaulichen:
- Hoher Q-WertGeringer Einflussbereich, hochgradig zielgerichtet
- Niedriger Q-WertBreites Wirkungsspektrum, sanfte Wirkung
- AnwendungEin schmales Q wird für präzise Korrekturen verwendet, während ein breites Q für die Gesamtjustierung dient.
Kompressoren und Expander
Kompressor und Expander
- WirkungDynamikbereichsprozessor
- FunktionDer Kompressor verringert den Dynamikbereich, während der Extender den Dynamikbereich erhöht.
Schwelle
- WirkungLegen Sie den Schwellenwert fest, ab dem die Kompression/Expansion beginnt.
- veranschaulichen:
- Signale oberhalb dieses Pegels werden komprimiert.
- Signale unterhalb dieses Pegels werden verstärkt.
- Umfang-60 dB bis 0 dB
Verdichtungsverhältnis
- WirkungDie Kompressionsintensität steuern
- veranschaulichen:
- 2:1Leichte Kompression
- 4:1Mittlere Kompression
- 10:1Starke Kompression
- ∞:1Begrenzereffekt
Ausgleich (Gewinnkompensation)
- WirkungKompensation des Pegelverlusts nach der Kompression
- Anwendung: Um das Volumen nach der Kompression dem Volumen vor der Kompression anzugleichen.
Angriffszeit
- WirkungRegelt die Drehzahl, mit der der Kompressor anläuft
- veranschaulichen:
- SchnellstartUm die Wirkung zu verstärken, sollte der Übergangszustand erhalten bleiben.
- Langsamer StartGlättet Transienten und sorgt so für einen sanfteren Klang.
- Umfang0,1-100 ms
Veröffentlichungszeit
- Wirkung: Die Drehzahl steuern, bei der der Kompressor aufhört zu arbeiten
- veranschaulichen:
- Schnell veröffentlichenEine rasche Erholung kann einen Sogeffekt erzeugen.
- Langsame FreisetzungEine langsamere dynamische Erholung führt zu einem natürlicheren Effekt.
- Umfang50-1000 ms
Exp. Verhältnis
- WirkungDie Intensität der Expansion kontrollieren
- veranschaulichen:
- 1:2Der Signalpegel halbiert sich, wenn er unter den Schwellenwert fällt.
- 1:10Hohe Erweiterungsfähigkeit, wodurch der Lärm effektiv reduziert wird.
- Umfang: 0-1 (eigentlich der Kehrwert des Expansionsverhältnisses)
Exp. Schwellenwert
- WirkungStellen Sie die Startspannung des Extenders ein.
- veranschaulichenSignale unterhalb dieses Schwellenwerts werden weiter abgeschwächt.
RMS-Mittelwertkoeffizient
- Wirkung: Die Empfindlichkeit des Kompressors gegenüber dem Signalverhalten steuern
- veranschaulichen:
- Hoher WertEmpfindlich gegenüber durchschnittlicher Lautstärke, gleichmäßiges Ansprechverhalten
- niedriger WertEmpfindlich gegenüber momentanen Spitzenwerten, mit schneller Reaktionszeit.
- AnwendungDie Ansprechcharakteristik wird dem Musikstil und den Bedürfnissen angepasst.
Tischtennis-Verzögerung
Ping-Pong-Verzögerung
- WirkungStereo-Delay-Effekt
- MerkmaleDas Echo wechselt zwischen dem linken und dem rechten Kanal.
Verzögerungszeit
- Wirkung: Steuere das Zeitintervall des Echos
- Umfang100-1000 ms
- Anwendung:
- Kurze Latenz: Verstärkt das Raum- und Tiefenempfinden.
- Lange Verzögerung: Erzeugt einen deutlich wahrnehmbaren Echoeffekt
Rückmeldung
- WirkungSteuerung der Anzahl der Echo-Wiederholungen
- veranschaulichen:
- Niedriges FeedbackEin geringes Echo
- Hohes FeedbackWiederholte Wiederholung kann zu Selbsterregung führen.
- Umfang: 0-1
Gewinnen
- Wirkung: Die Lautstärke des Verzögerungseffekts steuern
- Umfang-80 dB bis 0 dB
Verzögerungs-Panning (ungerade/gerade)
- Wirkung: Steuert die Position des Klangbildes von ungeraden bzw. geraden Echos.
- veranschaulichen:
- -100Genau linker Kanal
- 0Zentriert
- 100Voller rechter Kanal
- AnwendungErzeuge einen dreidimensionalen räumlichen Bewegungseffekt
Tiefpassfrequenz
- WirkungNiederfrequenzfilterung verzögerter Echos
- Anwendung:
- Simulation von Hochfrequenzverlusten aufgrund natürlicher Abklingprozesse
- Erzeuge einen warmen, nicht harten Echoeffekt.
Reverb Send
- WirkungDie Stärke des an den Nachhall gesendeten Verzögerungssignals
- AnwendungDurch das Hinzufügen eines räumlichen Eindrucks zu verzögerten Echos entsteht ein natürlicherer Effekt.
FDN-Nachhall
FDN Reverb
- WirkungHochwertiger digitaler Halleffekt
- MerkmaleEs basiert auf Rückkopplungsverzögerungsnetzwerken und ermöglicht eine natürliche räumliche Simulation.
Tonkorrektur (PEQ)
- WirkungDer Equalizer im Hall-Effekt.
- Funktion:
- Anpassen des Frequenzgangs des Nachhalls
- Steuern Sie die Helligkeit oder Wärme des Halls.
- Vermeiden Sie Konflikte zwischen Hall und Hauptklang.
Zerfallszeit
- WirkungKontrolle der Abklingzeit des Nachhalls
- veranschaulichen:
- Kurze DämpfungKleinraumeffekt
- Lange DämpfungHallen- oder Kircheneffekt
- Umfang0-9 Sekunden
- AnwendungPassen Sie die Nachhallzeit an die Größe und die Anforderungen des Raumes an.
Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@inproceedings{ycy2025diffvox,
title={DiffVox: A Differentiable Model for Capturing and Analysing Vocal Effects Distributions},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Ben Hayes and Wei-Hsiang Liao and György Fazekas and Yuki Mitsufuji},
year={2025},
booktitle={Proc. DAFx},
}
@inproceedings{ycy2025ito,
title={Improving Inference-Time Optimisation for Vocal Effects Style Transfer with a Gaussian Prior},
author={Chin-Yun Yu and Marco A. Martínez-Ramírez and Junghyun Koo and Wei-Hsiang Liao and Yuki Mitsufuji and György Fazekas},
year={2025},
booktitle={Proc. WASPAA},
}KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.