vor 17 Tagen

OnDev-LCT: On-Device Lightweight Convolutional Transformers towards Federated Learning

Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong

Abstract

Federated Learning (FL) ist zu einem vielversprechenden Ansatz geworden, maschinelles Lernen über mehrere Edge-Geräte hinweg gemeinsam zu trainieren, wobei die Privatsphäre der Nutzer gewahrt bleibt. Der Erfolg von FL hängt entscheidend von der Effizienz der beteiligten Modelle und deren Fähigkeit ab, die spezifischen Herausforderungen des verteilten Lernens zu meistern. Obwohl verschiedene Varianten des Vision Transformer (ViT) großes Potenzial als Alternative zu modernen konvolutionellen neuronalen Netzen (CNNs) im zentralisierten Training zeigen, behindern ihre ungewöhnlich große Größe und die hohen rechnerischen Anforderungen eine Implementierung auf ressourcenbeschränkten Edge-Geräten und stellen somit eine Herausforderung für ihre breite Anwendung im FL dar. Da Client-Geräte im FL typischerweise über begrenzte Rechenressourcen und Kommunikationsbandbreite verfügen, müssen Modelle für solche Geräte ein ausgewogenes Verhältnis zwischen Modellgröße, rechnerischer Effizienz und der Fähigkeit zur Anpassung an die vielfältigen und nicht-iid (nicht identisch und unabhängig verteilten) Datensätze im FL gewährleisten. Um diesen Herausforderungen zu begegnen, stellen wir OnDev-LCT vor: Leichte convolutionale Transformer für visuelle Aufgaben direkt auf Geräten mit begrenzten Trainingsdaten und Ressourcen. Unsere Modelle integrieren bildspezifische induktive Voraussetzungen über den LCT-Tokenizer, indem sie effiziente depthwise separable Faltungen in residualen linearen Bottleneck-Blöcken nutzen, um lokale Merkmale zu extrahieren, während der Multi-Head-Self-Attention (MHSA)-Mechanismus im LCT-Encoder implizit die Erfassung globaler Bildrepräsentationen ermöglicht. Umfangreiche Experimente auf Benchmark-Bild-Datensätzen zeigen, dass unsere Modelle bestehende leichte visuelle Modelle übertrifft, während sie gleichzeitig weniger Parameter und geringere rechnerische Anforderungen aufweisen – was sie besonders gut für FL-Szenarien mit Datenheterogenität und Kommunikationsengpässen geeignet macht.