HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBART: السياق ثنائي الاتجاه مع التمايز متعدد الحدود لتخليق الصور التلقائي

Patrick Esser Robin Rombach Andreas Blattmann Björn Ommer

الملخص

أظهرت النماذج ذات التوليد التسلسلي (autoregressive models) وتفكيكها التسلسلي للاحتمالية البياناتية مؤخرًا إمكانات كبيرة في تمثيل الصور وإنشائها. ومع ذلك، فإنها تُدمج السياق الصوتي للصورة بترتيب خطي أحادي الأبعاد، من خلال الانتباه فقط إلى قطع الصور المُولَّدة سابقًا التي تقع فوق أو على اليسار. ليس فقط أن هذا التحيز التسلسلي الأحادي الاتجاه غير طبيعي للصور، لأنه يتجاهل أجزاء كبيرة من المشهد حتى يكتمل التوليد تقريبًا، بل يعالج الصورة بأكملها على مقياس واحد، مما يعني تجاهل المعلومات السياقية الأعمق حتى مستوى الفكرة العامة للمشهد ككل. كحل لهذا، نُدمج هرمًا من السياقات من المستوى الخشن إلى الدقيق من خلال دمج الصيغة التوليدية التسلسلية مع عملية انتشار متعددة الاحتمالات (multinomial diffusion process): بينما تُزيل عملية الانتشار متعددة المراحل المعلومات تدريجيًا لتُبقي الصورة على مستوى خشن، نُدرّب سلسلة ماركوف قصيرة (short Markov chain) لعكس هذه العملية. في كل مرحلة، تُدمج نموذج ImageBART التسلسلي الناتج السياق من المراحل السابقة بشكل تدريجي ومن الخشن إلى الدقيق. تُظهر التجارب تحسينًا كبيرًا في قدرة تعديل الصور مقارنة بالنماذج التوليدية التسلسلية، مع الحفاظ على إنشاء صور عالية الولادة (high-fidelity)، وكل ذلك ممكن بفضل التدريب الفعّال في فضاء مختزل (compressed latent space). وبشكل خاص، يمكن لنهجنا أخذ أقنعة مُقدَّمة من المستخدم دون قيود، لتنفيذ تعديلات محلية على الصور. وبالتالي، وبخلاف النماذج التوليدية التسلسلية النقية، يمكنه حل مهام استكمال الصور ذات الأشكال الحرة (free-form image inpainting)، كما يمكنه في حالة النماذج المشروطة، تنفيذ تعديلات محلية موجهة بالنص دون الحاجة إلى تدريب خاص لكل قناع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp