HyperAIHyperAI

Command Palette

Search for a command to run...

Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

Wir stellen Delayed Streams Modeling (DSM) vor, eine flexible Formulierung für das Streaming, multimodale sequenz-zu-Sequenz-Lernen. Die sequenz-zu-Sequenz-Generierung wird oft in einer Offline-Formulierung betrachtet, bei der das Modell die gesamte Eingabesequenz verarbeitet, bevor es das erste Ausgabetimestep generiert. Alternativ basieren Streaming-Sequenz-zu-Sequenz-Modelle auf dem Lernen einer Strategie, zu entscheiden, wann die Eingabestrom- oder Ausgabestrom-Verarbeitung fortgesetzt werden soll. DSM hingegen modelliert bereits zeitlich abgestimmte Ströme mit einem nur aus einem Dekoder bestehenden Sprachmodell. Indem die Zeitabstimmung in einen Vorverarbeitungsschritt verlegt und geeignete Verzögerungen zwischen den Strömen eingeführt werden, ermöglicht DSM ein Streaming-Inferenzverfahren für beliebige Ausgabesequenzen aus beliebigen Eingabekombinationen. Damit ist DSM auf eine Vielzahl von sequenz-zu-Sequenz-Problemen anwendbar. Insbesondere entspricht bei gegebenen Text- und Audioströmen die automatische Spracherkennung (ASR) der Situation, bei der der Textstrom verzögert ist, während die umgekehrte Konfiguration ein Text-zu-Sprache-Modell (TTS) ergibt. Wir führen umfangreiche Experimente für diese beiden zentralen sequenz-zu-Sequenz-Aufgaben durch und zeigen, dass DSM sowohl state-of-the-art-Leistung als auch geringe Latenz erreicht, während es beliebig lange Sequenzen unterstützt und sogar mit Offline-Baselines konkurrieren kann. Der Quellcode, Beispiele und Demonstrationen sind unter folgender URL verfügbar: https://…


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp