HyperAIHyperAI

Command Palette

Search for a command to run...

التصحيح التكيفي المُعزز بالقناع والموجه بالرؤية لتحرير الصور القائمة على الدفعات

Kejie Wang Xuemeng Song Meng Liu Jin Yuan Weili Guan

الملخص

قد أظهرت نماذج التحويل من النص إلى الصورة تقدمًا ملحوظًا في إنشاء صور عالية الجودة من تعليمات النص، مما يعزز الأبحاث حول تحرير الصور القائم على التعليمات التي تقوم بتحرير صورة المصدر وفقًا لتعليمات الهدف. ومع ذلك، لا تزال الأساليب الحالية تواجه ثلاث مشكلات رئيسية: 1) قدرة محدودة للتعليمات النصية في توجيه إنشاء الصورة الهدف، 2) استخراج غير كافٍ للعلاقات بين الكلمات والشظايا (patch) والعلاقات بين الشظايا نفسها لتحديد المناطق المحررة، و3) قوة تحرير موحدة لجميع المناطق خلال كل خطوة تنقية الضوضاء. لحل هذه المشكلات، نقدم طريقة التحرير التكيفي الموجه بالرؤية والمُحسَّن بالقناع (Vision-guided and Mask-enhanced Adaptive Editing - ViMAEdit) مع ثلاثة تصاميم جديدة رئيسية. أولاً، نقترح استخدام تمثيلات الصور كإرشاد واضح لتعزيز عملية التنقية القائمة على التعليمات النصية التقليدية، حيث يتم تقديم استراتيجية تقدير تمثيل الصورة الهدف المستندة إلى CLIP. ثانيًا، نطور استراتيجية تحديد منطقة التحرير بشكل متكرر وموجه باهتمام الذات (self-attention)، والتي تستغل بشكل متكرر العلاقات بين الشظايا المعبَّر عنها في خرائط اهتمام الذات لتكرار وتوضيح تلك العلاقات بين الكلمات والشظايا الواردة في خرائط الاهتمام المتقاطع (cross-attention). وأخيرًا، نقدم عينة موجهة بتباين مكاني (spatially adaptive variance-guided sampling)، والتي تبرز الاختلافات العينية للمواد الهامة في الصورة لتعزيز قدرة التحرير. تُظهر النتائج التجريبية أن ViMAEdit يتفوق على جميع الأساليب الموجودة في قدرته على التحرير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp