OnDev-LCT : Transformateurs Convolutionnels Légers sur Dispositif vers l'apprentissage fédéré

L’apprentissage fédéré (FL) s’est imposé comme une approche prometteuse pour entraîner collaborativement des modèles d’apprentissage automatique sur plusieurs dispositifs périphériques tout en préservant la confidentialité. Le succès du FL repose sur l’efficacité des modèles participants et leur capacité à relever les défis propres à l’apprentissage distribué. Bien que plusieurs variantes du Vision Transformer (ViT) aient montré un grand potentiel en tant qu’alternative aux réseaux de neurones convolutifs (CNN) modernes dans le cadre d’un entraînement centralisé, leur taille inédite et leurs exigences computationnelles élevées entravent leur déploiement sur des dispositifs périphériques à ressources limitées, rendant leur application généralisée dans le FL difficile. Étant donné que les dispositifs clients dans le FL disposent généralement de ressources informatiques et de bande passante de communication restreintes, les modèles destinés à ces environnements doivent trouver un équilibre entre la taille du modèle, l’efficacité computationnelle et la capacité à s’adapter aux distributions de données diverses et non indépendantes et identiquement distribuées (non-IID) rencontrées dans le FL. Pour relever ces défis, nous proposons OnDev-LCT : des Transformers convolutionnels légers pour des tâches visuelles sur dispositif, dans des scénarios à données et ressources limitées. Nos modèles intègrent des biais inductifs spécifiques aux images via le tokeniseur LCT, en exploitant des convolutions séparables profondes efficaces dans des blocs à goulot de resserrement linéaire résiduels pour extraire des caractéristiques locales, tandis que le mécanisme d’attention multi-têtes (MHSA) intégré dans l’encodeur LCT permet implicitement de capturer des représentations globales des images. Des expériences étendues sur des jeux de données image standards montrent que nos modèles surpassent les modèles légers existants en termes de performance, tout en nécessitant moins de paramètres et des coûts computationnels plus faibles, les rendant particulièrement adaptés aux scénarios de FL caractérisés par une hétérogénéité des données et des contraintes de communication.