DyTox: Transformers للتعلم المستمر مع توسيع الرموز الديناميكي

تواجه الهياكل العميقة للشبكات صعوبة في التعلم المستمر للمهام الجديدة دون نسيان المهام السابقة. ويشير اتجاه حديث إلى أن الهياكل الديناميكية القائمة على توسيع المعاملات يمكنها تقليل النسيان الكارثي بشكل فعّال في التعلم المستمر. ومع ذلك، فإن النماذج الحالية غالبًا ما تتطلب معرفة بمهام الاختبار، وتتطلب ضبطًا معقدًا لتحقيق التوازن بين عدد المعاملات المتزايد، ولا تشارك أي معلومات فعلاً بين المهام. نتيجة لذلك، تواجه صعوبة في التوسع لعدد كبير من المهام دون تكاليف كبيرة. في هذا البحث، نقترح معمارية مُحَوِّل (Transformer) تعتمد على إطار عمل مخصص يعتمد على مُشفِّر (Encoder) وملفِّق (Decoder). ويشكل هذا التصميم نقطة محورية، حيث يتم مشاركة المُشفِّر والملفِّق بين جميع المهام. من خلال توسيع ديناميكي للرموز الخاصة، نخصص كل عملية تمرير أمامي في شبكة الملفِّق وفقًا لتوزيع المهمة المحددة. وتمكّن هذه الاستراتيجية من التوسع لعدد كبير من المهام، مع تقليل التكاليف في الذاكرة والوقت بفضل السيطرة الصارمة على توسيع المعاملات. علاوة على ذلك، لا تتطلب هذه الاستراتيجية الفعّالة أي ضبط لمعاملات فائقة (Hyperparameters) للتحكم في توسيع الشبكة. وتحقق نموذجنا نتائج ممتازة على مجموعة بيانات CIFAR100، وأداءً رائدًا على مجموعتي بيانات ImageNet100 وImageNet1000 الكبيرتين، مع امتلاك عدد معاملات أقل من النماذج الديناميكية المماثلة.