D3Former: محول مزدوج منقّى معزّز للتعلم التدريجي دون انحياز

في بيئة التعلم التدريجي للصف (CIL)، يتم تقديم مجموعات من الفئات إلى النموذج في كل مرحلة تعلُّم. والهدف هو تعلُّم نموذج موحد يُظهر أداءً جيدًا على جميع الفئات المُلاحظة حتى الآن. وبما أن نماذج المحولات البصرية (ViTs) أصبحت شائعة جدًا في بيئات التصنيف التقليدية، فإن السؤال المثير للاهتمام هو دراسة سلوكها في التعلم المستمر. في هذا العمل، نطور نموذجًا مُسمّى $\textrm{D}^3\textrm{Former}$، وهو محول مُصحَّح من التحيز وموهَّن مزدوجًا للتعلم التدريجي (CIL). يعتمد النموذج المُقترح على تصميم هجين مُتداخل (hybrid nested ViT) لضمان كفاءة البيانات وقابلية التوسع على مجموعات بيانات صغيرة وكبيرة على حد سواء. على عكس منهج حديث مبني على ViT للتعلم التدريجي، فإن $\textrm{D}^3\textrm{Former}$ لا يُعدِّل هندسته بشكل ديناميكي عند تعلُّم مهام جديدة، ويظل مناسبًا لعدد كبير من المهام التدريجية. ويعود التحسين في أداء $\textrm{D}^3\textrm{Former}$ في التعلم التدريجي إلى تغييرين أساسيين في تصميم ViT. أولاً، ننظر إلى التعلم التدريجي كمشكلة تصنيف ذات توزيع طولي (long-tail)، حيث تفوق عينات الفئات الجديدة بكثير عينات الفئات القديمة المحدودة. ولتجنب التحيز ضد الفئات القديمة التي تمثل أقلية، نقترح تعديلًا ديناميكيًا للناتج (logits) لتعزيز الحفاظ على التمثيلات المرتبطة بالمهام القديمة. ثانيًا، نقترح الحفاظ على تكوين خرائط الانتباه المكانية أثناء التقدم عبر المهام. وهذا يساعد في تقليل النسيان الكارثي من خلال تقييد النموذج بالحفاظ على الانتباه على المناطق الأكثر تمييزًا. وحققت $\textrm{D}^3\textrm{Former}$ نتائج متميزة على الإصدارات التدريجية لمجموعات بيانات CIFAR-100 وMNIST وSVHN وImageNet. يُمكن الاطلاع على الكود من خلال الرابط: https://tinyurl.com/d3former