HyperAIHyperAI

Command Palette

Search for a command to run...

ACDiT: التداخل بين النمذجة الشرطية التكرارية والتحويلة التفاضلية

Jinyi Hu Shengding Hu Yuxuan Song Yufei Huang Mingxuan Wang Hao Zhou Zhiyuan Liu Wei-Ying Ma Maosong Sun

الملخص

لقد أدى التزايد الأخير في الاهتمام بالنماذج متعددة الوسائط الشاملة إلى تزايد الحاجة إلى دمج الوسائط المتنوعة. ومع ذلك، يعاني هذا الدمج من تباين في الأساليب المستخدمة. فعلى الرغم من أن توليد الصور المستمر يتطلب نهجًا يعتمد على التشتت (diffusion) لجميع التسلسلات، إلا أن هذا النهج يختلف جوهريًا عن النمذجة التلقائية (autoregressive) في مجال النصوص. نحن نرى أن النمذجة التلقائية، أي التنبؤ بالمستقبل بناءً على الخبرة المؤكدة السابقة، تبقى عنصرًا جوهريًا في تطوير نموذج لتوليد الصور، وكذلك في تطوير نموذج متعدد الوسائط موحد محتمل. في هذه الورقة، نستكشف تداخلًا بين النمذجة التلقائية ونظام التشتت بالكامل للنمذجة المعلومات البصرية. في جوهره، نقدم ACDiT، وهو نموذج "مُحول التشتت الشرطي التلقائي على كتل" (Autoregressive blockwise Conditional Diffusion Transformer)، حيث يمكن تعديل حجم الكتلة في عملية التشتت، أي حجم وحدات النمذجة التلقائية، بشكل مرنة لتمكين التداخل بين التوليد التلقائي للوحدات الفردية (token-wise) والتشتت لجميع التسلسلات. يتميز ACDiT بسهولة التنفيذ، إذ يكفي إنشاء قناع انتباه مُمرّر (Skip-Causal Attention Mask - SCAM) أثناء التدريب. أثناء الاستدلال، يتم تكرار العملية بين تصفية الضوضاء بالتشتت والفك التلقائي، مما يسمح باستغلال كامل لذاكرة التخزين المؤقت (KV-Cache). وقد قمنا بتحقق من فعالية ACDiT في مهام توليد الصور والفيديوهات. كما أظهرنا أن فوائد النمذجة التلقائية تجعل من ACDiT قابلاً للاستخدام بسلاسة في مهام فهم الصور، رغم تدريبه على هدف التشتت. وتحليل التنازلات بين النمذجة التلقائية والتشتت يُظهر الإمكانات الكامنة لاستخدام ACDiT في مهام توليد الصور على مدى زمني طويل. تُعتبر هذه المزايا عاملًا واعدًا لجعل ACDiT الأساس الأساسي للنماذج الموحدة المستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ACDiT: التداخل بين النمذجة الشرطية التكرارية والتحويلة التفاضلية | مستندات | HyperAI