HyperAIHyperAI

Command Palette

Search for a command to run...

Besoin d'un petit modèle linguistique spécialisé ? Planifiez en amont !

David Grangier Angelos Katharopoulos Pierre Ablin Awni Hannun

Résumé

Les grands modèles linguistiques sont des outils polyvalents, mais ils ne conviennent pas aux budgets d'inférence restreints. Les petits modèles, quant à eux, offrent une inférence plus efficace, mais leur capacité réduite implique que leurs performances ne sont satisfaisantes que si l'on limite leur champ d'application à un domaine spécialisé. Ce papier explore comment obtenir de bons petits modèles linguistiques spécialisés à partir d'un grand ensemble de préentraînement générique et d'une quantité limitée de données spécialisées. Nous considérons deux scénarios, selon qu'il est (i) possible de préentraîner un modèle pour chaque tâche de spécialisation, ou (ii) on souhaite adapter de manière économique un seul modèle préentraîné à chaque tâche. Dans le premier scénario, nous proposons une solution efficace basée sur un échantillonnage par importance : nous rééchantillonnons l'ensemble de préentraînement afin de reproduire la distribution des données spécialisées, puis entraînons un petit modèle sur cet ensemble révisé. Dans le second scénario, nous proposons une nouvelle architecture, les réseaux projetés (projected networks, PN). Les PN constituent un grand réseau dont les paramètres peuvent être linéairement projetés dans un petit réseau pour la spécialisation. Pour les deux scénarios, nous démontrons empiriquement l'efficacité de nos solutions sur divers domaines, tailles d'ensemble d'entraînement et budgets d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp