منذ 8 أيام

ACDiT: التداخل بين النمذجة الشرطية التكرارية والتحويلة التفاضلية

Jinyi Hu, Shengding Hu, Yuxuan Song, Yufei Huang, Mingxuan Wang, Hao Zhou, Zhiyuan Liu, Wei-Ying Ma, Maosong Sun

الملخص

لقد أدى التزايد الأخير في الاهتمام بالنماذج متعددة الوسائط الشاملة إلى تزايد الحاجة إلى دمج الوسائط المتنوعة. ومع ذلك، يعاني هذا الدمج من تباين في الأساليب المستخدمة. فعلى الرغم من أن توليد الصور المستمر يتطلب نهجًا يعتمد على التشتت (diffusion) لجميع التسلسلات، إلا أن هذا النهج يختلف جوهريًا عن النمذجة التلقائية (autoregressive) في مجال النصوص. نحن نرى أن النمذجة التلقائية، أي التنبؤ بالمستقبل بناءً على الخبرة المؤكدة السابقة، تبقى عنصرًا جوهريًا في تطوير نموذج لتوليد الصور، وكذلك في تطوير نموذج متعدد الوسائط موحد محتمل. في هذه الورقة، نستكشف تداخلًا بين النمذجة التلقائية ونظام التشتت بالكامل للنمذجة المعلومات البصرية. في جوهره، نقدم ACDiT، وهو نموذج "مُحول التشتت الشرطي التلقائي على كتل" (Autoregressive blockwise Conditional Diffusion Transformer)، حيث يمكن تعديل حجم الكتلة في عملية التشتت، أي حجم وحدات النمذجة التلقائية، بشكل مرنة لتمكين التداخل بين التوليد التلقائي للوحدات الفردية (token-wise) والتشتت لجميع التسلسلات. يتميز ACDiT بسهولة التنفيذ، إذ يكفي إنشاء قناع انتباه مُمرّر (Skip-Causal Attention Mask - SCAM) أثناء التدريب. أثناء الاستدلال، يتم تكرار العملية بين تصفية الضوضاء بالتشتت والفك التلقائي، مما يسمح باستغلال كامل لذاكرة التخزين المؤقت (KV-Cache). وقد قمنا بتحقق من فعالية ACDiT في مهام توليد الصور والفيديوهات. كما أظهرنا أن فوائد النمذجة التلقائية تجعل من ACDiT قابلاً للاستخدام بسلاسة في مهام فهم الصور، رغم تدريبه على هدف التشتت. وتحليل التنازلات بين النمذجة التلقائية والتشتت يُظهر الإمكانات الكامنة لاستخدام ACDiT في مهام توليد الصور على مدى زمني طويل. تُعتبر هذه المزايا عاملًا واعدًا لجعل ACDiT الأساس الأساسي للنماذج الموحدة المستقبلية.