Command Palette
Search for a command to run...
Erreichung dimensionsfreier Kommunikation im verteilten Lernen durch Nullter-Ordnung-Optimierung
Erreichung dimensionsfreier Kommunikation im verteilten Lernen durch Nullter-Ordnung-Optimierung
Zhe Li Bicheng Ying Zidong Liu Chaosheng Dong Haibo Yang
Zusammenfassung
Federated Learning (FL) bietet einen vielversprechenden Ansatz für kooperatives und datenprivatsphäre-schützendes maschinelles Lernen über verteilte Datenquellen. Allerdings stellen die erheblichen Kommunikationskosten, die mit FL verbunden sind, eine erhebliche Herausforderung für dessen Effizienz dar. Insbesondere skaliert die Kommunikationskosten in jeder Kommunikationsrunde linear mit der Dimension des Modells, was insbesondere in Szenarien mit großen Modellen eine erhebliche Hürde darstellt. Trotz verschiedener kommunikationseffizienter Strategien bleibt die inhärente, dimensionsabhängige Kommunikationskosten ein zentrales Hindernis für aktuelle FL-Implementierungen. In diesem Artikel wird ein neuartiger, dimensionsunabhängiger Kommunikationsalgorithmus – DeComFL – vorgestellt, der auf Techniken der nullten Ordnung (zeroth-order optimization) basiert und die Kommunikationskosten von O(d) auf O(1) reduziert, indem in jeder Runde lediglich eine konstante Anzahl skalare Werte zwischen Clients und Server übertragen werden, unabhängig von der Dimension d der Modellparameter. Theoretisch zeigen wir, dass unser Algorithmus unter standardmäßigen Annahmen für nicht-konvexe Funktionen Zustände der aktuellen Forschung erreicht, wobei eine lineare Beschleunigung in Abhängigkeit von der Anzahl der Clients und lokalen Schritten beobachtet wird. Unter zusätzlicher Annahme einer niedrigen effektiven Rangstruktur können wir zudem nachweisen, dass die Konvergenzrate unabhängig von der Modelldimension d ist. Empirische Evaluierungen, die sowohl klassisches Deep-Learning-Training als auch die Feinabstimmung großer Sprachmodelle umfassen, belegen eine signifikante Reduktion des Kommunikationsaufwands. Insbesondere ermöglicht DeComFL die Feinabstimmung eines Modells mit mehreren Milliarden Parametern, indem insgesamt lediglich etwa 1 MB Daten zwischen Server und Client übertragen werden. Der Quellcode ist unter https://github.com/ZidongLiu/DeComFL verfügbar.