Command Palette
Search for a command to run...
Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams
Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams
Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez
Zusammenfassung
Wir stellen Delayed Streams Modeling (DSM) vor, eine flexible Formulierung für das Streaming, multimodale sequenz-zu-Sequenz-Lernen. Die sequenz-zu-Sequenz-Generierung wird oft in einer Offline-Formulierung betrachtet, bei der das Modell die gesamte Eingabesequenz verarbeitet, bevor es das erste Ausgabetimestep generiert. Alternativ basieren Streaming-Sequenz-zu-Sequenz-Modelle auf dem Lernen einer Strategie, zu entscheiden, wann die Eingabestrom- oder Ausgabestrom-Verarbeitung fortgesetzt werden soll. DSM hingegen modelliert bereits zeitlich abgestimmte Ströme mit einem nur aus einem Dekoder bestehenden Sprachmodell. Indem die Zeitabstimmung in einen Vorverarbeitungsschritt verlegt und geeignete Verzögerungen zwischen den Strömen eingeführt werden, ermöglicht DSM ein Streaming-Inferenzverfahren für beliebige Ausgabesequenzen aus beliebigen Eingabekombinationen. Damit ist DSM auf eine Vielzahl von sequenz-zu-Sequenz-Problemen anwendbar. Insbesondere entspricht bei gegebenen Text- und Audioströmen die automatische Spracherkennung (ASR) der Situation, bei der der Textstrom verzögert ist, während die umgekehrte Konfiguration ein Text-zu-Sprache-Modell (TTS) ergibt. Wir führen umfangreiche Experimente für diese beiden zentralen sequenz-zu-Sequenz-Aufgaben durch und zeigen, dass DSM sowohl state-of-the-art-Leistung als auch geringe Latenz erreicht, während es beliebig lange Sequenzen unterstützt und sogar mit Offline-Baselines konkurrieren kann. Der Quellcode, Beispiele und Demonstrationen sind unter folgender URL verfügbar: https://…