HyperAIHyperAI

Command Palette

Search for a command to run...

ما بعد التنبؤ بالرمز التالي: التنبؤ بالـ Next-X للإنتاج البصري التكراري

Sucheng Ren Qihang Yu Ju He Xiaohui Shen Alan Yuille Liang-Chieh Chen

الملخص

النمذجة ذاتية التوليد (AR)، المعروفة بنموذج التنبؤ بالرمز التالي، تُشكّل الأساس لنموذجات اللغة والرؤية التوليدية المتطورة حاليًا. تقليديًا، يُعامل "الرمز" كأصغر وحدة للتنبؤ، غالبًا ما يكون رمزًا منفصلًا في اللغة أو قطعة مُكمّلة مُكمّلة رقميًا في الرؤية. ومع ذلك، لا يزال التعريف الأمثل للرمز في الهياكل ثنائية الأبعاد للصورة مسألة مفتوحة. علاوةً على ذلك، تعاني النماذج ذاتية التوليد من "التحيّز في التعرض"، حيث يؤدي استخدام طريقة التدريس (Teacher Forcing) أثناء التدريب إلى تراكم الأخطاء أثناء الاستنتاج. في هذا البحث، نقترح xAR، وهي إطار عام لنموذج AR يوسع مفهوم الرمز ليشمل كيانًا X، يمكن أن يمثل رمز قطعة فردية، أو خلية (مجموعة من k×k قطع مجاورة)، أو عينة جزئية (مجموعة غير محلية لقطع بعيدة)، أو مقياسًا (من التفاصيل الخشنة إلى الدقيقة)، أو حتى صورة كاملة. بالإضافة إلى ذلك، نعيد صياغة تصنيف الرموز المنفصلة إلى انحدار الكيانات المستمرة، مستخدمين منهجيات مطابقة التدفق (flow-matching) في كل خطوة من خطوات AR. يؤدي هذا النهج إلى تدريب يعتمد على كيانات مشوّشة بدلًا من الرموز الحقيقية، مما يُنتج ما يُعرف بتعلم السياق المشوّش (Noisy Context Learning)، والذي يُخفّف بشكل فعّال من التحيّز في التعرض. نتيجة لذلك، يقدّم xAR ميزة رئيسية: (1) تمكين وحدات تنبؤ مرنة تُدرك تباينات مختلفة في الحجم السياقي والهياكل المكانية، و(2) تقليل التحيّز في التعرض عن طريق تجنّب الاعتماد على طريقة التدريس. على معيار توليد ImageNet-256، تفوق نموذجنا الأساسي xAR-B (172 مليون معلمة) على نموذجي DiT-XL وSiT-XL (675 مليون معلمة)، مع تحقيق تسريع في الاستنتاج بنسبة 20 مرة. وفي الوقت نفسه، يُحقّق xAR-H أحدث إنجاز عالمي مع مؤشر FID قدره 1.24، ويعمل بسرعة 2.2 مرة أسرع من النموذج السابق الأفضل أداءً، دون الاعتماد على وحدات أساسية للرؤية (مثل DINOv2) أو تقنيات عينة متقدمة للمسافات التوجيهية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp