تحرير الصور من دعوة إلى دعوة باستخدام التحكم في الانتباه المتقاطع

النماذج الحديثة للتركيب النصي على نطاق واسع قد جذبت اهتمامًا كبيرًا بفضل قدرتها الملفتة على توليد صور متنوعة للغاية تتبع النصوص المعطاة. تعتبر هذه الطرق القائمة على النص خاصة جذابة للبشر الذين اعتادوا على وصف نيتهم بشكل شفهي. ولذلك، من الطبيعي أن يتم توسيع التركيب النصي للصور إلى تحرير الصور القائمة على النص. يعد التحرير تحديًا لهذه النماذج التوليدية، حيث أن خاصية طبيعية لتقنية التحرير هي الحفاظ على معظم الصورة الأصلية، بينما في النماذج القائمة على النص، غالبًا ما يؤدي تعديل بسيط في دليل النص إلى نتيجة مختلفة تمامًا. تقوم الأساليب الرائدة بتخفيف هذا التحدي من خلال طلب المستخدمين تقديم قناع مكاني (spatial mask) لتحديد موقع التعديل، وبالتالي تجاهل الهيكل والمحتوى الأصليين داخل المنطقة المقنعة. في هذا البحث، نسعى لتحقيق إطار عمل تحرير سهل الفهم يتحكم فيه النص فقط. لهذا الغرض، نقوم بتحليل نموذج مشروط بالنص بدقة ونلاحظ أن طبقات الانتباه المتقاطع (cross-attention layers) هي المفتاح لتحكم العلاقة بين تخطيط الصورة المكاني وكل كلمة في الدليل. بناءً على هذه الملاحظة، نقدم عدة تطبيقات تراقب تركيب الصورة عن طريق تعديل الدليل النصي فقط. وهذا يشمل التحرير المحلي عن طريق استبدال كلمة، والتحرير العالمي بإضافة مواصفة، وحتى التحكم الدقيق في مدى انعكاس الكلمة في الصورة. نعرض نتائجنا على مجموعة متنوعة من الصور والأوامر، مما يدل على تركيب عالي الجودة وإخلاص لأوامر التعديل.