HyperAI

D-AR: الانتشار عبر النماذج الذاتية الانحدار

Gao, Ziteng ; Shou, Mike Zheng
تاريخ النشر: 6/1/2025
D-AR: الانتشار عبر النماذج الذاتية الانحدار
الملخص

يقدم هذا البحث نموذج التفتيت عبر النماذج الذاتية التنبؤية (D-AR)، وهو نموذج جديد يعيد صياغة عملية تفتيت الصور كإجراء ذاتي تنبؤي بسيط على غرار الإجراء القياسي لتنبؤ العنصر التالي. نبدأ بتصميم مُقطِّع يحول الصور إلى سلاسل من الرموز المتقطعة، حيث يمكن فك شفرة الرموز في مواقع مختلفة إلى خطوات تنقية مختلفة من التفتيت في مجال البكسل. بفضل خصائص التفتيت، تتبع هذه الرموز بشكل طبيعي ترتيبًا من الخشن إلى الدقيق، مما يجعلها مباشرة قابلة للنمذجة الذاتية التنبؤية. لذلك، نطبق التنبؤ القياسي بالعنصر التالي على هذه الرموز دون تعديل أي تصاميم أساسية (سواء أقنعة السببية أو استراتيجيات التدريب والاستدلال)، وينتج عن ذلك إنشاء رموز ذاتية تنبؤية متتابعة يعكس مباشرة عملية التفتيت في مجال الصور. بعبارة أخرى، بمجرد أن يولد النموذج الذاتي التنبؤي زيادة في الرموز، يمكننا فك شفرة هذه الرموز مباشرة إلى الخطوة المقابلة من تنقية التفتيت بطريقة متواصلة. يكشف أنبوب العمل لدينا عن عدة خصائص مثيرة للاهتمام بشكل طبيعي، مثل دعم المعاينات المتسقة عند إنشاء مجموعة جزئية فقط من الرموز وتمكين التركيب المراقب بالتصميم بدون تعلم (zero-shot layout-controlled synthesis). على معيار ImageNet القياسي، حققت طريقتنا مؤشر FID 2.09 باستخدام هيكل Llama بحجم 775 مليون مع 256 رمزًا متقطعًا. نأمل أن يلهم عملنا الأبحاث المستقبلية حول هياكل النماذج الذاتية التنبؤية الموحدة للتركيب البصري، خاصةً مع النماذج اللغوية الكبيرة. ستكون الشفرة والنماذج متاحة على https://github.com/showlab/D-AR