Command Palette
Search for a command to run...
Tout n'est pas perdu : la récupération des LLM sans points de contrôle
Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

Résumé
L'entraînement des grands modèles de langage (LLMs) sur des nœuds de calcul décentralisés et peu puissants, par exemple, plusieurs instances locales, réduit le coût d'entraînement et favorise la démocratisation des modèles. Le défi inévitable ici est le turn-over des nœuds en raison des pannes et des politiques de planification de l'opérateur, ce qui entraîne la perte d'une étape – une partie du modèle. Les approches conventionnelles pour se remettre des pannes consistent soit à utiliser le pointage (checkpointing), où une copie complète du modèle est envoyée périodiquement à un stockage supplémentaire, soit à effectuer des calculs redondants. Ces méthodes génèrent une charge de communication et/ou de calcul significative même en l'absence de pannes et ne s'échelonnent pas bien dans les configurations avec de grands modèles.Dans cet article, nous proposons CheckFree, une méthode efficace de récupération où une étape défaillante est remplacée par une moyenne pondérée des étapes voisines les plus proches. Contrairement aux méthodes actuelles, CheckFree n'exige aucune opération supplémentaire ni stockage additionnel. Cependant, en raison de la nature de la moyenne des étapes voisines, elle ne peut récupérer que les pannes d'étapes intermédiaires. Nous avons également développé notre méthode pour créer CheckFree+, qui utilise une exécution de pipeline hors séquence pour tolérer les arrêts brutaux des premières et dernières étapes. Grâce à l'exécution hors séquence du pipeline, le comportement de ces étapes est imité par leurs voisines respectives, ce qui permet à CheckFree+ de les récupérer simplement en copiant les poids depuis le voisin immédiat.Pour pouvoir récupérer les couches d'embedding et de dé-embedding, CheckFree+ copie ces couches vers les étapes voisines, ce qui nécessite une charge de stockage relativement faible. Nous évaluons notre méthode en détail sur des modèles LLaMa dont la taille varie de 124 millions à 1,5 milliard de paramètres avec différentes fréquences de panne. Dans le cas de taux de panne bas et moyens (5-10 %), CheckFree et CheckFree+ surpassent tant le pointage que les calculs redondants en termes de convergence dans le temps réel d'au moins 12 %. Nos deux propositions peuvent être exécutées via notre code disponible à : https://github.com/gensyn-ai/CheckFree.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.