مُوَازِن: تعلُّم أداء تناغُم الصور والفيديوهات الشفَّاف

الدراسات الحديثة في مجال تناسق الصور تحل المشكلة كمهمة ترجمة صورية على مستوى البكسل من خلال استخدام مُشفِّرات ذات حجم كبير. ومع ذلك، فإن أدائها غير راضٍ وسرعات الاستدلال بطيئة عند التعامل مع الصور ذات الدقة العالية. في هذا البحث، لاحظنا أن تعديل الوسيطات المدخلية لمرشحات الصور الأساسية، مثل السطوع والتباين، يكفي للبشر لإنتاج صور واقعية من الصور المركبة. لذلك، نصوغ عملية تناسق الصور كمشكلة انحدار على مستوى الصورة لتعلم الوسيطات التي يستخدمها البشر لهذه المهمة. نقدم إطار عمل Harmonizer لتناسق الصور. على عكس الطرق السابقة التي تعتمد على مُشفِّرات سوداء (Black-box)، يحتوي Harmonizer على شبكة عصبية لتوقع الوسيطات المرشحة وعدد من مرشحات الشفافية البيضاء (White-box) (بناءً على الوسيطات المتوقعة) لتناسق الصور. كما نقدم منظمًا متتابعًا واستراتيجية خسارة ديناميكية لـ Harmonizer لتعلم الوسيطات المرشحة بشكل أكثر استقرارًا ودقة. نظرًا لأن شبكتنا تنتج فقط وسيطات على مستوى الصورة والمرشحات التي نستخدمها فعالة، فإن Harmonizer أخف وزنًا وأسرع بكثير من الأساليب الموجودة. تظهر التجارب الشاملة أن Harmonizer يتفوق بشكل ملحوظ على الأساليب الموجودة، خاصة مع الإدخالات ذات الدقة العالية. أخيرًا، نطبق Harmonizer على تناسق الفيديو، مما يحقق نتائج ثابتة عبر الإطارات بمعدل 56 إطارًا في الثانية بدقة 1080p. يمكن الوصول إلى الكود والنموذج من الرابط التالي: https://github.com/ZHKKKe/Harmonizer.