إلى تحسين إعادة ترميم الصور: تقليل إدخال الكائنات غير المرغوب فيها والحفاظ على اتساق الألوان

تحتاج التطورات الحديثة في تعبئة الصور إلى استخدام نماذج توليدية لمعالجة الأقنعة الكبيرة غير المنتظمة. ومع ذلك، قد تُنتج هذه النماذج صورًا مُعبّأة غير واقعية بسبب مشكلتين رئيسيتين: (1) إدراج كائنات غير مرغوب فيها: حتى مع توفر مناطق غير مُقنعة كسياق، قد تُولّد النماذج التوليدية كائنات عشوائية داخل المنطقة المقنعة التي لا تتماشى مع بقية الصورة. (2) عدم اتساق الألوان: غالبًا ما تُظهر المناطق المُعبّأة انزياحات لونية تؤدي إلى مظهر مشوّش، مما يقلل من جودة الصورة. يمكن أن يساعد إعادة تدريب النموذج التوليدية في حل هذه المشكلات، لكنه مكلف جدًا، نظرًا لأن النماذج المتطورة القائمة على الفضاء الخفي (مثل نماذج التبديد القائم على التدفق المُصحح) تتطلب عملية تدريب مكوّنة من ثلاث مراحل: تدريب مشفر متغير خفي (VAE)، ثم تدريب شبكة U-Net توليدية أو نموذج تحويل (Transformer)، وأخيرًا التحسين الدقيق (Fine-tuning) للتعبئة. بدلًا من ذلك، تقترح هذه الورقة نهجًا ما بعد المعالجة يُسمى ASUKA (تعبئة مستقرة مُحاذاة باستخدام معلومات مسبقة عن المناطق غير المعروفة) لتحسين نماذج التعبئة. ولحل مشكلة إدراج الكائنات غير المرغوب فيها، نستفيد من مُشفّر تلقائي مُقنّع (MAE) لتوفير معلومات أولية قائمة على إعادة البناء، مما يقلل من ظاهرة التخيل الكائني (object hallucination) مع الحفاظ على قدرات النموذج التوليدية. ولحل مشكلة عدم اتساق الألوان، نقترح مُفكّك VAE مخصصًا يُعامل ترميم اللاتنت إلى الصورة كمهمة توحيد محلية، مما يقلل بشكل كبير من الانزياحات اللونية ويعزز التعبئة المتماسكة لونياً. وقد تم التحقق من أداء ASUKA على نسخ التعبئة من SD 1.5 وFLUX باستخدام مجموعتي بيانات Places2 وMISATO، وهي مجموعة بيانات متنوعة نقترحها. تُظهر النتائج أن ASUKA تقلل من ظاهرة التخيل الكائني وتحسّن من اتساق الألوان مقارنةً بالنماذج التوليدية التقليدية القائمة على التبديد والتدفق المُصحح، وكذلك مقارنةً بطرق التعبئة الأخرى.