تحويل مُتكيف حسب المنطقة مع مُسبق تجزئة للضغط على الصور

أظهرت الضغط الصوتي المُدرَّب (LIC) تقدماً ملحوظاً في السنوات الأخيرة. تستخدم الدراسات الحالية عادةً وحدات تعتمد على الشبكات العصبية التلافيفية (CNN) أو وحدات تعتمد على الانتباه الذاتي كطرق تحويل لضغط الصور. ومع ذلك، لم تُجرِ أي أبحاث سابقة حول التحويل العصبي التي تركز على مناطق محددة. لمعالجة هذه الفجوة، نقدّم أقنعة التجزئة غير المرتبطة بالفئة (أي أقنعة دلالية دون تسميات فئات) لاستخراج معلومات سياقية مُعدّلة حسب المنطقة. يُطبّق الوحدة المقترحة، المُسمّاة "التحويل المُعدّل حسب المنطقة"، عمليات تلافيف مُعدّلة على مناطق مختلفة مُرشّحة بواسطة هذه الأقنعة. علاوةً على ذلك، نقدّم وحدة قابلة للتركيب والتشغيل الفوري تُسمّى "طبقة التماثل المقياسية" (Scale Affine Layer)، والتي تُدمج سياقات غنية من مناطق متعددة. بالرغم من وجود جهود سابقة في ضغط الصور تستخدم أقنعة التجزئة كمدخلات وسطية إضافية، فإن نهجنا يختلف بشكل كبير عنها. تكمن مزايانا في أننا، لتجنب زيادة معدل البت (bitrate) الإضافي، نعامل هذه الأقنعة كمعلومات مُفضّلة (privilege information)، وهي متوفرة أثناء مرحلة تدريب النموذج، لكنها غير مطلوبة أثناء مرحلة الاستنتاج (inference). إلى حد علمنا، نحن أول من يستخدم أقنعة غير مرتبطة بالفئة كمعلومات مُفضّلة، ونحقق أداءً متفوّقاً في مقاييس الولاء البكسي (pixel-fidelity)، مثل نسبة الإشارة إلى الضوضاء القصوى (PSNR). تُظهر النتائج التجريبية تحسّناً ملحوظاً مقارنةً بالطرق السابقة ذات الأداء العالي، مع توفير ما يقارب 8.2٪ من معدل البت مقارنةً بـ VTM-17.0. يمكن الوصول إلى الكود المصدري من خلال الرابط التالي: https://github.com/GityuxiLiu/SegPIC-for-Image-Compression.