HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat
Modelltraining
LLM

Google veröffentlicht Decoupled DiLoCo: Neue Fronten im verteilten KI-Training

Google hat mit Decoupled DiLoCo eine neue Architektur für das verteilte Training von Large Language Models (LLMs) vorgestellt. Das System ermöglicht es, anspruchsvolle KI-Modelle über weit entfernte Rechenzentren hinweg zu trainieren, wobei der erforderliche Datenverkehr reduziert und die Ausfallsicherheit erhöht wird. Traditionell erfordert das Training moderner KI-Modelle ein streng gekoppeltes System, bei dem tausende Chips in perfekter Synchronisation arbeiten müssen. Diese Methode stößt bei zukünftigen Modellgrößen an logistische Grenzen, da die Aufrechterhaltung dieser Synchronisation über große Entfernungen extrem schwierig wird. Die neue Decoupled DiLoCo-Architektur, wobei DiLoCo für Distributed Low-Communication steht, löst dieses Problem, indem sie große Trainingsläufe in entkoppelte Recheninseln aufteilt. Zwischen diesen Inseln fließen Daten asynchron, sodass lokale Störungen isoliert werden können, ohne dass das gesamte System zum Stillstand kommt. Dies führt zu einer flexibleren und widerstandsfähigeren Methode für das Training fortgeschrittener Modelle in global verteilten Zentren. Im Gegensatz zu früheren verteilten Ansätzen wie dem Data-Parallelism vermeidet das System die Kommunikationsverzögerungen, die eine globale Skalierung bisher behinderten. In einem erfolgreichen Test trainierte Google ein Modell mit 12 Milliarden Parametern über vier separate US-Regionen. Dabei wurde eine Datenübertragungsrate von lediglich 2 bis 5 Gigabit pro Sekunde genutzt, eine Geschwindigkeit, die mit der existierenden Internetinfrastruktur zwischen Rechenzentren erreichbar ist, ohne neue Spezialnetzwerke errichten zu müssen. Das Ergebnis war beeindruckend: Das System war mehr als 20-mal schneller als herkömmliche Synchronisationsmethoden. Dies gelingt, indem notwendige Kommunikationsvorgänge in längere Rechenphasen integriert werden, was das Warten auf andere Systemteile vermeidet. Der Ansatz von Google umfasst die gesamte technologische Kette von Hardware bis Software. Decoupled DiLoCo erlaubt es, Rechenressourcen zu nutzen, die sonst ungenutzt blieben, und diese in nutzbare Kapazität umzuwandeln. Ein weiterer wesentlicher Vorteil ist die Möglichkeit, verschiedene Hardware-Generationen, wie etwa TPU v6e und TPU v5p, in einem einzigen Trainingslauf zu kombinieren. Dies verlängert die Lebensdauer bestehender Hardware und erhöht die verfügbare Rechenleistung. Experimente zeigten, dass Chips unterschiedlicher Generationen mit unterschiedlichen Geschwindigkeiten dennoch die gleiche Leistung erzielen wie Trainingsläufe mit homogener Hardware. Dies ist besonders wertvoll, da neue Hardware-Generationen nicht überall gleichzeitig verfügbar sind und somit Engpässe in der Logistik und Kapazität gelindert werden. Durch diese Technologie öffnet sich ein neues Feld für widerstandsfähige KI-Infrastrukturen, das die Grundlage für die nächste Generation von KI-Modellen legen soll. Das Projekt wurde von einem Team aus Google DeepMind und Google Research entwickelt, mit wichtigen Beiträgen von Forschern wie Arthur Douillard, Keith Rush und Yani Donchev. Die Arbeit unterstreicht Googles Strategie, durch innovative Softwarearchitekturen die physikalischen Grenzen der Hardware zu überwinden und KI-Training skalierbarer und effizienter zu machen.

Verwandte Links

Google veröffentlicht Decoupled DiLoCo: Neue Fronten im verteilten KI-Training | Aktuelle Beiträge | HyperAI