Google präsentiert offen zugängliches Modell für interaktive AI-Musik
Google-Forscher stellen Magenta RealTime vor: Ein offenes Modell für Echtzeit-KI-Musikgenerierung Das Team von Googles Magenta-Projekt hat kürzlich Magenta RealTime (Magenta RT) veröffentlicht, ein offenes Modell zur Echtzeit-Musikgenerierung, das eine neue Ebene der Interaktivität bei generativen Audioanwendungen ermöglicht. Lizenziert unter Apache 2.0 und freigegeben auf GitHub und Hugging Face, ist Magenta RT das erste großformatige Musikgenerierungsmodell, das echte Echtzeit-Inferenz mit dynamischen, benutzersteuerbaren Stilanweisungen unterstützt. Hintergrund: Echtzeit-Musikgenerierung Echtzeitsteuerung und Live-Interaktivität sind grundlegend für musikalische Kreativität. Obwohl frühere Magenta-Projekte wie Piano Genie und DDSP den Schwerpunkt auf expressives Steuerung und Signalmodellierung legten, erweitert Magenta RT diese Ansätze auf die vollständige Audiosynthese. Es schließt die Lücke zwischen generativen Modellen und menschlichen Kompositionen, indem es sofortiges Feedback und dynamische musikalische Evolution ermöglicht. Technische Übersicht Magenta RT basiert auf einem Transformer-basierten Sprachmodell, das auf diskreten Audiotoken trainiert wurde. Diese Tokens werden durch einen neuronalen Audio-Codec erzeugt, der in Stereotonqualität von 48 kHz arbeitet. Das Modell verwendet eine 800 Millionen Parameter umfassende Transformer-Architektur, die für folgende Aspekte optimiert wurde: Echtzeit-Inferenz: Magenta RT kann Audio schneller als in Echtzeit generieren, auch auf freien Tier-TPUs in Google Colab. Stilsteuerung: Das Modell nutzt einen neuen gemeinsamen Musik-Text-Embedding-Modul namens MusicCoCa (eine Hybridversion von MuLan und CoCa), der eine semantisch bedeutsame Kontrolle über Genre, Instrumentierung und stilistische Entwicklung in Echtzeit ermöglicht. Daten und Training Magenta RT wurde auf etwa 190.000 Stunden instrumentaler Stock-Musik trainiert. Diese große und vielfältige Datensammlung stellt sicher, dass das Modell in vielen Genres und Musikkontexten gut generalisiert. Die Trainingsdaten wurden mit einem hierarchischen Codec tokenisiert, um kompakte Repräsentationen ohne Verlust der Tonqualität zu ermöglichen. Jedes 2-Sekunden-Stück wird nicht nur durch eine vom Benutzer angegebene Anweisung, sondern auch durch einen 10-Sekunden-Rollcontext der vorherigen Audioabschnitte bedingt, was eine glatte, kohärente Fortsetzung garantiert. Das Modell unterstützt zwei Eingabeformate für Stilanweisungen: - Textbasierte Anweisungen: Textanweisungen, die Stil, Genre und Instrumente beschreiben. - Audiosamples: Kurze Audiosamples, die als Referenz dienen, um den Stil zu beeinflussen. Diese Kombination von Formaten ermöglicht es, in Echtzeit zwischen verschiedenen Genres zu wechseln und Instrumente dynamisch zu mischen – Fähigkeiten, die für Live-Kompositionen und DJ-Performances entscheidend sind. Performance und Inferenz Trotz seiner Größe (800 Millionen Parameter) erreicht Magenta RT eine Generierungsgeschwindigkeit von 1,25 Sekunden für jede 2 Sekunden Audio. Dies ist ausreichend für Echtzeitverwendung (Echtzeitfaktor ~0,625), und die Inferenz kann auf den freien Tier-TPUs in Google Colab ausgeführt werden. Der Generierungsprozess ist in Segmente unterteilt, um kontinuierliches Streaming zu ermöglichen: Jedes 2-Sekunden-Segment wird in einem Forward-Pipeline-Verfahren synthetisiert, wobei überlappende Fenster die Kontinuität und Kohärenz sichern. Durch Optimierungen in der Modellkompilierung (XLA), Caching und Hardware-Steuerung wird die Latenz weiter reduziert. Anwendungen und Nutzungsbeispiele Magenta RT ist für die Integration in verschiedene Anwendungen konzipiert: - Musikalische Kollaborationen: Es ermöglicht es Musikern, in Echtzeit zusammenzuarbeiten. - Live-Performances: DJs und andere Performer können das Modell nutzen, um Musik live zu modifizieren. - Kreatives Experimentieren: Entwickler und Forscher können das Modell nutzen, um neue kreative Workflows zu entwerfen. Google hat zukünftige Unterstützung für Geräte-integrierte Inferenz und persönliche Feinabstimmung angedeutet, was es ermöglichen würde, das Modell an individuelle stilistische Signatur zu anpassen. Vergleich mit anderen Modellen Magenta RT ergänzt Googles DeepMinds MusicFX (DJ-Modus) und Lyrias RealTime-API, unterscheidet sich aber wesentlich dadurch, dass es Open Source und selbst gehostet werden kann. Im Gegensatz zu latenten Diffusionsmodellen (z.B. Riffusion) und autoregressiven Dekodern (z.B. Jukebox) konzentriert sich Magenta RT auf die Vorhersage von Codec-Tokens mit minimaler Latenz. Verglichen mit Modellen wie MusicGen oder MusicLM bietet Magenta RT eine geringere Latenz und ermöglicht interaktive Generierung, was oft in aktuellen prompt-to-audio-Pipelines fehlt, die die vollständige Trackgenerierung vorab erfordern. Schlussfolgerung Magenta RealTime setzt neue Maßstäbe in der Echtzeitgenerierung von Audio. Durch die Kombination von hochwertiger Synthese und dynamischer Benutzersteuerung öffnet es neue Möglichkeiten für KI-gestützte Musikschaffensprozesse. Seine Architektur balanciert Skalierbarkeit und Geschwindigkeit, während seine offene Lizenz die Zugänglichkeit und Community-Beiträge sicherstellt. Für Forscher, Entwickler und Musiker gleichermaßen repräsentiert Magenta RT einen wichtigen Schritt hin zu responsiven, kollaborativen KI-Musiksystemen. Industry-Insider bewerten Magenta RT als bedeutenden Meilenstein in der Entwicklung von interaktiven KI-Musikwerkzeugen. Die Möglichkeit, in Echtzeit Musik zu generieren und zu steuern, eröffnet innovative Anwendungen in der Live-Perfomance und musikalischen Kollaboration. Googles Magenta-Team ist bekannt für seine fortschrittlichen Arbeiten im Bereich KI-gestützter Musikgenerierung und setzt mit Magenta RT die Tradition fort, Open-Source-Werkzeuge für die Wissenschaftsgemeinschaft bereitzustellen.