AudioLM: Ein Sprachmodellierungsansatz zur Audioerzeugung

Wir stellen AudioLM vor, einen Rahmen für die Erzeugung hochwertiger Audiodaten mit langfristiger Konsistenz. AudioLM transformiert die Eingabedaten in eine Folge diskreter Tokens und formuliert die Audiodaten-Generierung als Sprachmodellierungsaufgabe in diesem Repräsentationsraum. Wir zeigen, wie bestehende Audio-Tokenisierer unterschiedliche Kompromisse zwischen Rekonstruktionsqualität und langfristiger Struktur bieten, und schlagen eine hybride Tokenisierungsmethode vor, um beide Ziele zu erreichen. Konkret nutzen wir die diskretisierten Aktivierungen eines maskierten Sprachmodells, das auf Audiodaten vortrainiert wurde, um langfristige Strukturen zu erfassen, sowie die diskreten Codes eines neuronalen Audio-Codec, um eine hochwertige Synthese zu ermöglichen. Durch das Training auf großen Korpora von Roh-Audio-Signalen lernt AudioLM, natürliche und kohärente Fortsetzungen bei kurzen Prompt-Eingaben zu erzeugen. Bei der Verarbeitung von Sprache, ohne dass Transkripte oder Annotationen benötigt werden, generiert AudioLM syntaktisch und semantisch plausiblen Sprachfortgang und bewahrt dabei sowohl die Sprecheridentität als auch die Prosodie auch für bisher unbekannte Sprecher. Darüber hinaus zeigen wir, dass unser Ansatz über Sprache hinausgeht: Er ermöglicht die Erzeugung kohärenter Klaviermusikfortsetzungen, obwohl das Modell ohne jegliche symbolische Darstellung von Musik trainiert wurde.