ImageBART: السياق ثنائي الاتجاه مع التمايز متعدد الحدود لتخليق الصور التلقائي

أظهرت النماذج ذات التوليد التسلسلي (autoregressive models) وتفكيكها التسلسلي للاحتمالية البياناتية مؤخرًا إمكانات كبيرة في تمثيل الصور وإنشائها. ومع ذلك، فإنها تُدمج السياق الصوتي للصورة بترتيب خطي أحادي الأبعاد، من خلال الانتباه فقط إلى قطع الصور المُولَّدة سابقًا التي تقع فوق أو على اليسار. ليس فقط أن هذا التحيز التسلسلي الأحادي الاتجاه غير طبيعي للصور، لأنه يتجاهل أجزاء كبيرة من المشهد حتى يكتمل التوليد تقريبًا، بل يعالج الصورة بأكملها على مقياس واحد، مما يعني تجاهل المعلومات السياقية الأعمق حتى مستوى الفكرة العامة للمشهد ككل. كحل لهذا، نُدمج هرمًا من السياقات من المستوى الخشن إلى الدقيق من خلال دمج الصيغة التوليدية التسلسلية مع عملية انتشار متعددة الاحتمالات (multinomial diffusion process): بينما تُزيل عملية الانتشار متعددة المراحل المعلومات تدريجيًا لتُبقي الصورة على مستوى خشن، نُدرّب سلسلة ماركوف قصيرة (short Markov chain) لعكس هذه العملية. في كل مرحلة، تُدمج نموذج ImageBART التسلسلي الناتج السياق من المراحل السابقة بشكل تدريجي ومن الخشن إلى الدقيق. تُظهر التجارب تحسينًا كبيرًا في قدرة تعديل الصور مقارنة بالنماذج التوليدية التسلسلية، مع الحفاظ على إنشاء صور عالية الولادة (high-fidelity)، وكل ذلك ممكن بفضل التدريب الفعّال في فضاء مختزل (compressed latent space). وبشكل خاص، يمكن لنهجنا أخذ أقنعة مُقدَّمة من المستخدم دون قيود، لتنفيذ تعديلات محلية على الصور. وبالتالي، وبخلاف النماذج التوليدية التسلسلية النقية، يمكنه حل مهام استكمال الصور ذات الأشكال الحرة (free-form image inpainting)، كما يمكنه في حالة النماذج المشروطة، تنفيذ تعديلات محلية موجهة بالنص دون الحاجة إلى تدريب خاص لكل قناع.