il y a 5 mois

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

Les modèles linguistiques à prédiction du jeton suivant autoregressifs offrent des capacités puissantes, mais rencontrent des défis importants dans leur déploiement pratique en raison des coûts computationnels et mémoire élevés associés à l’inférence, en particulier durant l’étape de décodage. Nous introduisons Set Block Decoding (SBD), un paradigme simple et flexible qui accélère la génération en intégrant, au sein d’une même architecture, la prédiction standard du jeton suivant (NTP) et la prédiction de jetons masqués (MATP). SBD permet à modèle d’échantillonner en parallèle plusieurs jetons futurs, non nécessairement consécutifs, ce qui constitue une différence clé par rapport aux méthodes d’accélération antérieures. Cette flexibilité ouvre la voie à l’utilisation de solveurs avancés issus de la littérature sur les diffusions discrètes, offrant des accélérations significatives sans compromettre la précision. SBD ne nécessite ni modification architecturale ni nouveaux hyperparamètres d’entraînement, préserve la compatibilité avec le cache exact des valeurs (KV-caching) et peut être mis en œuvre par une adaptation fine (fine-tuning) de modèles existants de prédiction du jeton suivant. En adaptant finement Llama-3.1 8B et Qwen-3 8B, nous démontrons que SBD permet de réduire de 3 à 5 fois le nombre de passages avant (forward passes) requis pour la génération, tout en atteignant une performance équivalente à celle obtenue avec un entraînement NTP classique.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Traitement Du Langage Naturel

Tâche

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Traitement Du Langage Naturel

Tâche

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Set Block Decoding est un accélérateur d'inférence pour les modèles de langage

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Set Block Decoding est un accélérateur d'inférence pour les modèles de langage

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Set Block Decoding est un accélérateur d'inférence pour les modèles de langage

Itai Gat Heli Ben-Hamu Marton Havasi Daniel Haziza Jeremy Reizenstein Gabriel Synnaeve David Lopez-Paz Brian Karrer Yaron Lipman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters