il y a 2 mois

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Résumé

Les grands modèles linguistiques (LLM) ont fait preuve de capacités remarquables dans divers domaines, mais leur entraînement reste coûteux en ressources et en temps, nécessitant une puissance de calcul massive ainsi qu’une orchestration soigneuse des procédés d’entraînement. La technique de « model souping » — c’est-à-dire la moyenne des poids issus de plusieurs modèles de même architecture — s’est imposée comme une méthode prometteuse en pré- et post-entraînement, capable d’améliorer les performances sans nécessiter de réentraînement coûteux. Dans cet article, nous proposons SoCE (Soup Of Category Experts), une approche fondée sur des principes rigoureux pour le model souping, qui utilise la composition de benchmarks afin d’identifier les meilleurs candidats modèles, et applique une moyenne pondérée non uniforme afin de maximiser les performances. Contrairement aux approches antérieures reposant sur une moyenne uniforme, notre méthode exploite l’observation selon laquelle les catégories de benchmarks présentent souvent une faible corrélation interne en termes de performances des modèles. SoCE identifie ainsi des « modèles experts » pour chaque cluster de catégories faiblement corrélées, puis les combine par une moyenne pondérée optimisée, plutôt que par des poids uniformes. Nous démontrons que la méthode proposée améliore significativement les performances et la robustesse dans plusieurs domaines, notamment les capacités multilingues, l’appel d’outils et les raisonnements mathématiques, atteignant des résultats de pointe sur le leaderboard Berkeley Function Calling.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

LLM

Entraînement Du Modèle

Benchmarks

Infrastructure D'ia

Approche/Framework

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

LLM

Entraînement Du Modèle

Benchmarks

Infrastructure D'ia

Approche/Framework

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Souper-Model : comment l'arithmétique simple débloque des performances de pointe pour les grands modèles linguistiques | Articles | HyperAI

Command Palette

Souper-Model : comment l'arithmétique simple débloque des performances de pointe pour les grands modèles linguistiques

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Souper-Model : comment l'arithmétique simple débloque des performances de pointe pour les grands modèles linguistiques

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Souper-Model : comment l'arithmétique simple débloque des performances de pointe pour les grands modèles linguistiques

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu

Shalini Maiti Amar Budhiraja Bhavul Gauri Gaurav Chaurasia Anton Protopopov Alexis Audran-Reiss Michael Slater Despoina Magka Tatiana Shavrina Roberta Raileanu