HyperAIHyperAI

Command Palette

Search for a command to run...

Noise2Music: Textbedingte Musikgenerierung mit Diffusionsmodellen

Zusammenfassung

Wir stellen Noise2Music vor, bei dem eine Reihe von Diffusionsmodellen trainiert wird, um aus Textanweisungen hochwertige 30-Sekunden-Musikstücke zu generieren. Zwei Arten von Diffusionsmodellen werden nacheinander trainiert und eingesetzt: ein Generatormodell, das eine Zwischenrepräsentation unter Berücksichtigung des Textes erzeugt, und ein Kaskademodell, das hochauflösendes Audio unter Bedingung der Zwischenrepräsentation und gegebenenfalls des Textes erzeugt. Wir untersuchen zwei Optionen für die Zwischenrepräsentation: eine verwendet ein Spektrogramm, die andere verwendet Audio mit geringerer Auflösung. Wir stellen fest, dass das generierte Audio nicht nur wichtige Elemente der Textanweisungen wie Genre, Tempo, Instrumente, Stimmung und Epoche treu widerspiegelt, sondern darüber hinaus auch die feingranularen Semantiken der Anweisungen verankert. Vortrainierte große Sprachmodelle spielen hierbei eine entscheidende Rolle – sie werden verwendet, um gepaarten Text für das Audiomaterial des Trainingsdatensatzes zu generieren und um Embeddings der von den Diffusionsmodellen verarbeiteten Textanweisungen zu extrahieren.Generierte Beispiele: https://google-research.github.io/noise2music


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp