HyperAIHyperAI

Command Palette

Search for a command to run...

تحرير الصور من دعوة إلى دعوة باستخدام التحكم في الانتباه المتقاطع

Amir Hertz*1,2, Ron Mokady*1,2, Jay Tenenbaum1, Kfir Aberman1, Yael Pritch1, and Daniel Cohen-Or*1,2

الملخص

النماذج الحديثة للتركيب النصي على نطاق واسع قد جذبت اهتمامًا كبيرًا بفضل قدرتها الملفتة على توليد صور متنوعة للغاية تتبع النصوص المعطاة. تعتبر هذه الطرق القائمة على النص خاصة جذابة للبشر الذين اعتادوا على وصف نيتهم بشكل شفهي. ولذلك، من الطبيعي أن يتم توسيع التركيب النصي للصور إلى تحرير الصور القائمة على النص. يعد التحرير تحديًا لهذه النماذج التوليدية، حيث أن خاصية طبيعية لتقنية التحرير هي الحفاظ على معظم الصورة الأصلية، بينما في النماذج القائمة على النص، غالبًا ما يؤدي تعديل بسيط في دليل النص إلى نتيجة مختلفة تمامًا. تقوم الأساليب الرائدة بتخفيف هذا التحدي من خلال طلب المستخدمين تقديم قناع مكاني (spatial mask) لتحديد موقع التعديل، وبالتالي تجاهل الهيكل والمحتوى الأصليين داخل المنطقة المقنعة. في هذا البحث، نسعى لتحقيق إطار عمل تحرير سهل الفهم يتحكم فيه النص فقط. لهذا الغرض، نقوم بتحليل نموذج مشروط بالنص بدقة ونلاحظ أن طبقات الانتباه المتقاطع (cross-attention layers) هي المفتاح لتحكم العلاقة بين تخطيط الصورة المكاني وكل كلمة في الدليل. بناءً على هذه الملاحظة، نقدم عدة تطبيقات تراقب تركيب الصورة عن طريق تعديل الدليل النصي فقط. وهذا يشمل التحرير المحلي عن طريق استبدال كلمة، والتحرير العالمي بإضافة مواصفة، وحتى التحكم الدقيق في مدى انعكاس الكلمة في الصورة. نعرض نتائجنا على مجموعة متنوعة من الصور والأوامر، مما يدل على تركيب عالي الجودة وإخلاص لأوامر التعديل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp