il y a un mois

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

Nous introduisons le modèle de flux retardés (Delayed Streams Modeling, DSM), une formulation souple pour l'apprentissage séquentiel multimodal en mode flux (sequence-to-sequence). Généralement, la génération séquentielle est formulée de manière hors ligne, le modèle consommant toute la séquence d'entrée avant de produire le premier instant de sortie. À l'inverse, les modèles en mode flux séquentiel doivent apprendre une politique pour déterminer quand avancer sur le flux d'entrée ou écrire dans le flux de sortie. DSM, quant à lui, modélise des flux déjà alignés dans le temps à l’aide d’un modèle langagier uniquement décodeur. En déplaçant l’alignement vers une étape de prétraitement et en introduisant des délais appropriés entre les flux, DSM permet une inférence en flux pour des séquences de sortie arbitrairement longues, à partir de n’importe quelle combinaison d’entrées, ce qui le rend applicable à de nombreux problèmes de type séquence à séquence. En particulier, lorsqu’on dispose de flux textuels et audio, la reconnaissance automatique de parole (ASR) correspond au cas où le flux textuel est retardé, tandis que l'inverse donne un modèle de synthèse vocale (TTS). Nous menons des expériences approfondies sur ces deux tâches majeures de type séquence à séquence, montrant que DSM atteint des performances et une latence de pointe tout en supportant des séquences arbitrairement longues, étant même compétitif par rapport aux modèles hors ligne. Le code, des exemples et des démonstrations sont disponibles à l'adresse suivante : [URL]

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un mois

Text-to-Speech

Multimodal

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a un mois

Text-to-Speech

Multimodal

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage séquentiel par flux avec modélisation de flux retardés

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage séquentiel par flux avec modélisation de flux retardés

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage séquentiel par flux avec modélisation de flux retardés

Neil Zeghidour Eugene Kharitonov Manu Orsini Václav Volhejn Gabriel de Marmiesse Edouard Grave Patrick Pérez Laurent Mazaré Alexandre Défossez

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters