HyperAIHyperAI
منذ 17 أيام

OnDev-LCT: تحويلات تناقضية خفيفة على الجهاز نحو التعلم المجزأ

Chu Myaet Thwal, Minh N.H. Nguyen, Ye Lin Tun, Seong Tae Kim, My T. Thai, Choong Seon Hong
OnDev-LCT: تحويلات تناقضية خفيفة على الجهاز نحو التعلم المجزأ
الملخص

أصبح التعلم المُتَّفَقَ (Federated Learning - FL) من الاتجاهات الواعدة لتدريب نماذج التعلم الآلي بشكل تعاوني عبر أجهزة الحافة المتعددة مع الحفاظ على الخصوصية. ويعتمد نجاح التعلم المُتَّفَق على كفاءة النماذج المشاركة وقدرتها على مواجهة التحديات الفريدة المرتبطة بالتعلم الموزع. وعلى الرغم من أن العديد من التنويعات الخاصة بمحولات الرؤية (Vision Transformer - ViT) أظهرت إمكانات كبيرة كبدائل للشبكات العصبية التلافيفية الحديثة (CNNs) في التدريب المركزي، إلا أن الحجم الهائل والمتطلبات الحسابية الأعلى يحولان دون استخدامها على أجهزة الحافة المحدودة الموارد، مما يشكل تحديًا أمام تطبيقها الواسع في التعلم المُتَّفَق. وبما أن أجهزة العملاء في التعلم المُتَّفَق غالبًا ما تمتلك موارد حسابية محدودة وعرض نطاق اتصال محدود، يجب أن توازن النماذج المُستهدفة لهذه الأجهزة بين حجم النموذج، والكفاءة الحسابية، وقدرتها على التكيف مع توزيعات البيانات المتنوعة وغير المتطابقة (non-IID) التي تُواجه في البيئات المُتَّفَقة. ولحل هذه التحديات، نقترح نموذج OnDev-LCT: محولات تلافيفية خفيفة الوزن للتطبيقات البصرية على الأجهزة مع بيانات تدريب محدودة والموارد المحدودة. تعتمد نماذجنا على تضمين مُسبقات استدلالية محددة للصورة من خلال مُحلِّل LCT، وذلك باستخدام التلافيف العميقة الفصلية الفعالة داخل كتل الحدود الخطية المتكررة لاستخراج السمات المحلية، في حين يُسهم آلية الانتباه الذاتي متعدد الرؤوس (MHSA) في وحدة الترميز LCT بشكل ضمني في التقاط التمثيلات الشاملة للصور. وقد أظهرت التجارب الواسعة على مجموعات بيانات صور معيارية أن نماذجنا تتفوق على النماذج البصرية الخفيفة الحالية، مع عدد أقل من المعلمات ومتطلبات حسابية أدنى، ما يجعلها مناسبة جدًا لسيناريوهات التعلم المُتَّفَق التي تشهد تباينًا في البيانات وعوائق في الاتصال.