تحرير الصورة بدون تدريب باستخدام KV-Edit للحفاظ الدقيق على الخلفية

تظل التماسك الخلفي تحديًا كبيرًا في مهام تحرير الصور. وعلى الرغم من التطورات الواسعة، لا تزال الطرق الحالية تواجه تناقضًا بين الحفاظ على التشابه مع الصورة الأصلية وإنتاج محتوى يتماشى مع الهدف المطلوب. في هذا العمل، نقترح طريقة KV-Edit، وهي منهجية خالية من التدريب تستخدم ذاكرة التخزين المؤقت للقيم (KV cache) في نماذج DiTs للحفاظ على تماسك الخلفية، حيث يتم الاحتفاظ بـ "الرموز الخلفية" بدلًا من إعادة إنشائها، مما يزيل الحاجة إلى آليات معقدة أو تدريب مكلف، وينتج في النهاية محتوى جديد يندمج بشكل سلس مع الخلفية ضمن المناطق التي يحددها المستخدم. كما نستعرض استهلاك الذاكرة الناتج عن ذاكرة التخزين المؤقت أثناء عملية التحرير، ونُحسّن التعقيد المكاني إلى O(1) باستخدام طريقة لا تعتمد على التحويل العكسي. يتميز منهجنا بالتوافق مع أي نموذج توليدي يعتمد على DiT دون الحاجة إلى تدريب إضافي. تُظهر التجارب أن KV-Edit تتفوق بشكل ملحوظ على الطرق الحالية من حيث جودة الخلفية ونوعية الصورة، بل وتتفوق حتى على الطرق القائمة على التدريب. يمكن زيارة صفحة المشروع عبر الرابط: https://xilluill.github.io/projectpages/KV-Edit