GMem: نهج منظم لنموذج توليدي فائق الكفاءة

تشير الدراسات الحديثة إلى أن عملية إزالة الضوضاء في النماذج التوليدية العميقة من نوع التشتت (diffusion) تتعلم وتحفظ ضمنياً معلومات معنوية من توزيع البيانات. وتدل هذه النتائج على أن التقاط توزيعات بيانات أكثر تعقيداً يتطلب استخدام شبكات عصبية أكبر، ما يؤدي إلى زيادة كبيرة في متطلبات الحوسبة، والتي بدورها تصبح العائق الرئيسي في كل من تدريب النماذج واستنتاجها. ولحل هذه المشكلة، نقدّم GMem: نهجًا معياريًا لتحسين الكفاءة العالية في النماذج التوليدية. يفصل نهجنا GMem بين قدرة الذاكرة والنموذج، ويُطبّق الذاكرة كمجموعة منفصلة وثابتة (immutable) تحفظ المعلومات المعنوية الأساسية في البيانات. وتظهر النتائج تحسينات كبيرة: حيث يعزز GMem كفاءة التدريب واستخلاص العينات، بالإضافة إلى تنوع الإنتاج. ويقلل هذا التصميم من الاعتماد على الشبكة العصبية لحفظ توزيعات البيانات المعقدة، وبالتالي يُحسّن كفاءة التدريب والاستخلاص في آن واحد. وفي مجموعة بيانات ImageNet بدقة $256 \times 256$، يحقق GMem تسريعًا في التدريب بنسبة $50\times$ مقارنةً بنموذج SiT، ويصل إلى مؤشر FID = 7.66 في أقل من 28 دورة تدريب (بمدة تدريب تقارب 4 ساعات)، بينما يتطلب SiT 1400 دورة. وبلا استخدام التوجيه بدون فئة (classifier-free guidance)، يحقق GMem أداءً متميزًا (SoTA) بـ FID = 1.53 بعد 160 دورة فقط، وبمدة تدريب تقارب 20 ساعة، متفوقًا على نموذج LightningDiT الذي يحتاج إلى 800 دورة وحوالي 95 ساعة للوصول إلى FID = 2.17.