HyperAIHyperAI

Command Palette

Search for a command to run...

Google lance Decoupled DiLoCo : une nouvelle frontière pour l'entraînement distribué de l'IA

Google DeepMind et Google Research ont présenté une nouvelle architecture de formation d'intelligence artificielle baptisée Decoupled DiLoCo. Ce système vise à entraîner des modèles d'apprentissage profond sur des distances géographiques étendues, comme entre différents centres de données, en réduisant les besoins en bande passante et en augmentant la résilience matérielle. L'entraînement traditionnel des modèles avancés repose sur des systèmes fortement couplés où des milliers de puces doivent rester synchronisées de manière parfaite. Bien que efficace pour les modèles actuels, cette approche devient un défi logistique majeur à très grande échelle. La méthode Decoupled DiLoCo, qui signifie Distributed Low-Communication, rompt avec ce paradigme en divisant les grands processus d'entraînement en îlots de calcul découplés. Ces îlots échangent des données de manière asynchrone, ce qui permet d'isoler les perturbations locales sans arrêter l'apprentissage global. Contrairement aux méthodes précédentes comme la parallélisation de données, cette architecture évite les goulots d'étranglement de communication où une partie du système doit attendre les autres, rendant l'entraînement distribué à l'échelle mondiale praticable. Dans le cadre d'une démonstration, Google a réussi à entraîner un modèle de 12 milliards de paramètres sur quatre régions distinctes aux États-Unis. Cette opération a utilisé une connexion réseau à large bande de 2 à 5 gigabits par seconde, une capacité déjà disponible dans l'infrastructure internet actuelle sans nécessiter de nouveaux réseaux dédiés. Les résultats ont été spectaculaires : le système a été plus de vingt fois plus rapide que les méthodes de synchronisation conventionnelles. Cette performance est obtenue en intégrant les communications nécessaires dans de plus longues périodes de calcul, éliminant ainsi les temps d'attente bloquants. Au-delà de l'efficacité et de la résilience, Decoupled DiLoCo offre une flexibilité inédite en permettant le mélange de différentes générations de matériel au sein d'une même exécution. Les chercheurs ont pu combiner des puces TPU v6e et TPU v5p, qui fonctionnent à des vitesses différentes, sans compromettre les performances finales du modèle d'apprentissage. Cette capacité prolonge la durée de vie du matériel existant et maximise la capacité de calcul totale disponible pour l'IA. Elle atténue également les goulots d'étranglement logistiques liés au déploiement progressif des nouvelles générations de matériel. Cette innovation s'inscrit dans une approche globale de Google, qui intègre le matériel, les infrastructures logicielles et la recherche pour repenser l'entraînement des modèles. En permettant des tâches d'entraînement à la bande passante d'Internet, Decoupled DiLoCo peut exploiter n'importe quelle capacité de calcul inutilisée, transformant les ressources stratégiques en ressources productives. Bien que ce travail concerne aujourd'hui la formation préliminaire à pleine échelle, il ouvre la voie à des systèmes plus robustes nécessaires pour la prochaine génération d'intelligence artificielle. L'équipe à l'origine de cette percée regroupe des membres de Google DeepMind et de Google Research, sous la direction de chercheurs tels qu'Arthur Douillard et Keith Rush, avec le soutien de nombreux experts en infrastructure et en recherche.

Liens associés