HyperAIHyperAI

Command Palette

Search for a command to run...

DyTox: Transformers للتعلم المستمر مع توسيع الرموز الديناميكي

Arthur Douillard Alexandre Ramé Guillaume Couairon Matthieu Cord

الملخص

تواجه الهياكل العميقة للشبكات صعوبة في التعلم المستمر للمهام الجديدة دون نسيان المهام السابقة. ويشير اتجاه حديث إلى أن الهياكل الديناميكية القائمة على توسيع المعاملات يمكنها تقليل النسيان الكارثي بشكل فعّال في التعلم المستمر. ومع ذلك، فإن النماذج الحالية غالبًا ما تتطلب معرفة بمهام الاختبار، وتتطلب ضبطًا معقدًا لتحقيق التوازن بين عدد المعاملات المتزايد، ولا تشارك أي معلومات فعلاً بين المهام. نتيجة لذلك، تواجه صعوبة في التوسع لعدد كبير من المهام دون تكاليف كبيرة. في هذا البحث، نقترح معمارية مُحَوِّل (Transformer) تعتمد على إطار عمل مخصص يعتمد على مُشفِّر (Encoder) وملفِّق (Decoder). ويشكل هذا التصميم نقطة محورية، حيث يتم مشاركة المُشفِّر والملفِّق بين جميع المهام. من خلال توسيع ديناميكي للرموز الخاصة، نخصص كل عملية تمرير أمامي في شبكة الملفِّق وفقًا لتوزيع المهمة المحددة. وتمكّن هذه الاستراتيجية من التوسع لعدد كبير من المهام، مع تقليل التكاليف في الذاكرة والوقت بفضل السيطرة الصارمة على توسيع المعاملات. علاوة على ذلك، لا تتطلب هذه الاستراتيجية الفعّالة أي ضبط لمعاملات فائقة (Hyperparameters) للتحكم في توسيع الشبكة. وتحقق نموذجنا نتائج ممتازة على مجموعة بيانات CIFAR100، وأداءً رائدًا على مجموعتي بيانات ImageNet100 وImageNet1000 الكبيرتين، مع امتلاك عدد معاملات أقل من النماذج الديناميكية المماثلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp