MasaCtrl: التحكم المتبادل في الانتباه الذاتي بدون ضبط للتركيب الصوري المتسق والتحرير

رغم النجاح في توليد الصور على نطاق واسع وتحرير الصور المشروطة بالنص، لا تزال الطرق الحالية تعاني من صعوبة إنتاج نتائج متسقة في التوليد والتحرير. على سبيل المثال، غالباً ما تفشل طرق التوليد في تركيب صور متعددة لنفس الأشياء/الشخصيات ولكن بزوايا أو أوضاع مختلفة. في الوقت نفسه، إما أن تفشل طرق التحرير الحالية في تحقيق تحرير معقد وغير مرن بشكل فعال مع الحفاظ على النسيج العام والهوية، أو أنها تتطلب ضبطاً دقيقاً يستغرق وقتاً طويلاً لالتقاط المظهر الخاص بالصورة. في هذا البحث، قمنا بتطوير MasaCtrl (ماساكترل)، وهو طريقة خالية من الضبط الدقيق لتحقيق التوليد المتسق للصور والتحرير المعقد وغير المرن للصور بشكل متزامن. تحديداً، تقوم MasaCtrl (ماساكترل) بتحويل انتباه الذات الموجود في نماذج الانتشار إلى انتباه ذاتي متبادل، بحيث يمكنها استعلام المحتويات المحلية والنسيج المرتبط من الصور المصدر للحفاظ على التوافق. لتعزيز تخفيف الالتباس بين الخلفية والصورة الأمامية، نقترح استراتيجية انتباه ذاتي متبادل مرشدة بالقناع، حيث يمكن استخراج القناع بسهولة من خرائط الانتباه المتقاطعة. تظهر التجارب الواسعة أن MasaCtrl (ماساكترل) المقترحة يمكنها إنتاج نتائج مثيرة للإعجاب في كل من التوليد المتسق للصور والتحرير المعقد وغير المرن للصور الحقيقية.