ما بعد التنبؤ بالرمز التالي: التنبؤ بالـ Next-X للإنتاج البصري التكراري

النمذجة ذاتية التوليد (AR)، المعروفة بنموذج التنبؤ بالرمز التالي، تُشكّل الأساس لنموذجات اللغة والرؤية التوليدية المتطورة حاليًا. تقليديًا، يُعامل "الرمز" كأصغر وحدة للتنبؤ، غالبًا ما يكون رمزًا منفصلًا في اللغة أو قطعة مُكمّلة مُكمّلة رقميًا في الرؤية. ومع ذلك، لا يزال التعريف الأمثل للرمز في الهياكل ثنائية الأبعاد للصورة مسألة مفتوحة. علاوةً على ذلك، تعاني النماذج ذاتية التوليد من "التحيّز في التعرض"، حيث يؤدي استخدام طريقة التدريس (Teacher Forcing) أثناء التدريب إلى تراكم الأخطاء أثناء الاستنتاج. في هذا البحث، نقترح xAR، وهي إطار عام لنموذج AR يوسع مفهوم الرمز ليشمل كيانًا X، يمكن أن يمثل رمز قطعة فردية، أو خلية (مجموعة من k×k قطع مجاورة)، أو عينة جزئية (مجموعة غير محلية لقطع بعيدة)، أو مقياسًا (من التفاصيل الخشنة إلى الدقيقة)، أو حتى صورة كاملة. بالإضافة إلى ذلك، نعيد صياغة تصنيف الرموز المنفصلة إلى انحدار الكيانات المستمرة، مستخدمين منهجيات مطابقة التدفق (flow-matching) في كل خطوة من خطوات AR. يؤدي هذا النهج إلى تدريب يعتمد على كيانات مشوّشة بدلًا من الرموز الحقيقية، مما يُنتج ما يُعرف بتعلم السياق المشوّش (Noisy Context Learning)، والذي يُخفّف بشكل فعّال من التحيّز في التعرض. نتيجة لذلك، يقدّم xAR ميزة رئيسية: (1) تمكين وحدات تنبؤ مرنة تُدرك تباينات مختلفة في الحجم السياقي والهياكل المكانية، و(2) تقليل التحيّز في التعرض عن طريق تجنّب الاعتماد على طريقة التدريس. على معيار توليد ImageNet-256، تفوق نموذجنا الأساسي xAR-B (172 مليون معلمة) على نموذجي DiT-XL وSiT-XL (675 مليون معلمة)، مع تحقيق تسريع في الاستنتاج بنسبة 20 مرة. وفي الوقت نفسه، يُحقّق xAR-H أحدث إنجاز عالمي مع مؤشر FID قدره 1.24، ويعمل بسرعة 2.2 مرة أسرع من النموذج السابق الأفضل أداءً، دون الاعتماد على وحدات أساسية للرؤية (مثل DINOv2) أو تقنيات عينة متقدمة للمسافات التوجيهية.