تحرير الألوان الموجه بالنص دون تدريب باستخدام محول التشتت متعدد الوسائط

التعديل الموجه بالنص على الألوان في الصور والفيديوهات يُعد مشكلة أساسية لم تُحل بعد، ويتطلب التحكم الدقيق في خصائص الألوان، بما في ذلك الانعكاس (الألbedo)، ولون مصدر الضوء، والإضاءة المحيطة، مع الحفاظ على الاتساق الفيزيائي في البنية الهندسية، وخصائص المواد، وتفاعلات الضوء مع المادة. تقدم الطرق الحالية التي لا تتطلب تدريبًا تطبيقًا واسعًا على مهام التعديل، لكنها تعاني من صعوبة في التحكم الدقيق بالألوان، وغالبًا ما تؤدي إلى عدم اتساق بصري في المناطق المُعدّلة وغير المُعدّلة. في هذا العمل، نقدّم ColorCtrl، وهي طريقة تعديل ألوان دون تدريب، تعتمد على آليات الانتباه في نماذج التشتت متعددة الوسائط الحديثة (MM-DiT). من خلال فصل البنية عن الألوان من خلال التلاعب المستهدف في خرائط الانتباه والرموز القيمية (value tokens)، تُمكّن هذه الطريقة من تعديل دقيق ومتوازن للألوان، إلى جانب التحكم على مستوى الكلمة في شدة الخصائص. تعديلنا يُحدّد فقط المناطق المطلوبة حسب المُدخل النصي، بينما تبقى المناطق غير المرتبطة دون تغيير. أظهرت التجارب الواسعة على نماذج SD3 وFLUX.1-dev أن ColorCtrl تتفوق على الطرق الحالية التي لا تتطلب تدريبًا، وتحقق أداءً متميزًا على مستوى الجودة والاتساق في التعديل. علاوةً على ذلك، تفوقت طريقة ColorCtrl على نماذج تجارية قوية مثل FLUX.1 Kontext Max وGPT-4o Image Generation من حيث الاتساق. عند تمديدها إلى نماذج الفيديو مثل CogVideoX، تُظهر طريقتنا مزايا أكبر، خاصة في الحفاظ على الاتساق الزمني واستقرار التعديل. وأخيرًا، تُظهر الطريقة أيضًا قدرة على التعميم على نماذج التشتت التي تعتمد على التعليمات، مثل Step1X-Edit وFLUX.1 Kontext dev، مما يُثبت مرونتها العالية.