vor einem Monat

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

Wir stellen Delayed Streams Modeling (DSM) vor, eine flexible Formulierung für das Streaming, multimodale sequenz-zu-Sequenz-Lernen. Die sequenz-zu-Sequenz-Generierung wird oft in einer Offline-Formulierung betrachtet, bei der das Modell die gesamte Eingabesequenz verarbeitet, bevor es das erste Ausgabetimestep generiert. Alternativ basieren Streaming-Sequenz-zu-Sequenz-Modelle auf dem Lernen einer Strategie, zu entscheiden, wann die Eingabestrom- oder Ausgabestrom-Verarbeitung fortgesetzt werden soll. DSM hingegen modelliert bereits zeitlich abgestimmte Ströme mit einem nur aus einem Dekoder bestehenden Sprachmodell. Indem die Zeitabstimmung in einen Vorverarbeitungsschritt verlegt und geeignete Verzögerungen zwischen den Strömen eingeführt werden, ermöglicht DSM ein Streaming-Inferenzverfahren für beliebige Ausgabesequenzen aus beliebigen Eingabekombinationen. Damit ist DSM auf eine Vielzahl von sequenz-zu-Sequenz-Problemen anwendbar. Insbesondere entspricht bei gegebenen Text- und Audioströmen die automatische Spracherkennung (ASR) der Situation, bei der der Textstrom verzögert ist, während die umgekehrte Konfiguration ein Text-zu-Sprache-Modell (TTS) ergibt. Wir führen umfangreiche Experimente für diese beiden zentralen sequenz-zu-Sequenz-Aufgaben durch und zeigen, dass DSM sowohl state-of-the-art-Leistung als auch geringe Latenz erreicht, während es beliebig lange Sequenzen unterstützt und sogar mit Offline-Baselines konkurrieren kann. Der Quellcode, Beispiele und Demonstrationen sind unter folgender URL verfügbar: https://…

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Text-to-Speech

Multimodal

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor einem Monat

Text-to-Speech

Multimodal

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Streaming Sequenz-zu-Sequenz-Lernen mit der Modellierung verzögerter Streams

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters