Text-Free Prosody-Aware Generative Spoken Language Modeling

Die Vortrainierung von Sprache hat sich vor allem bei Klassifizierungsaufgaben als wirksam erwiesen, während ihre Fähigkeit, neue Sprache zu generieren – vergleichbar mit der Kohärenz von Textabschnitten, die beispielsweise GPT-2 erzeugt – bisher kaum erforscht wurde. Generative Spoken Language Modeling (GSLM) \cite{Lakhotia2021} ist die einzige vorangegangene Arbeit, die sich mit den generativen Aspekten der Sprachvortrainierung befasst. Dabei werden Texte durch entdeckte, phonemähnliche Einheiten ersetzt, um eine Sprachmodellierung durchzuführen, wodurch die Generierung sinnvoller, neuer Sätze möglich wird. Leider verliert die in GSLM verwendete Einheit jedoch den Großteil der prosodischen Information, obwohl der Bedarf an Text entfällt. Folglich kann GSLM die Prosodie nicht zur Verbesserung der Verständlichkeit nutzen und erzeugt keine expressiven Sprachäußerungen. In dieser Arbeit präsentieren wir ein prosodiebewusstes generatives Sprachmodell (pGSLM). Es basiert auf einem mehrströmigen Transformer-Sprachmodell (MS-TLM) für Sprache, das aus zwei Strömen besteht: einem Strom entdeckter Einheiten und einem Strom prosodischer Merkmale. Ein angepasstes HiFi-GAN-Modell wandelt die Ausgaben des MS-TLM in Waveform-Daten um. Wir entwickeln eine Reihe von Metriken zur Modellierung und Generierung von Prosodie und nutzen Metriken aus GSLM erneut zur Inhaltsmodellierung. Experimentelle Ergebnisse zeigen, dass pGSLM die Prosodie nutzen kann, um sowohl die Prosodie- als auch die Inhaltsmodellierung zu verbessern, und zudem natürliche, sinnvolle und kohärente Sprache erzeugen kann, wenn ein gesprochener Prompt gegeben ist. Audiomuster sind unter https://speechbot.github.io/pgslm verfügbar. Der Quellcode und die Modelle sind unter https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslm zugänglich.