الضغط المُدرَّب للصورة باستخدام هياكل مختلطة من المحولات والشبكات العصبية التلافيفية

أظهرت أساليب ضغط الصور القائمة على التعلم (LIC) تقدماً واعداً وأداءً متفوقاً من حيث أداء معدل الخطأ-الجودة مقارنةً بالمعايير الكلاسيكية لضغط الصور. تعتمد معظم الأساليب الحالية لـ LIC على الشبكات العصبية التلافيفية (CNN) أو المبنية على المُحَوِّل (Transformer)، لكل منهما مزايا مختلفة. واستغلال مزايا كلا النهج يُعد موضوعاً يستحق الاستكشاف، ويواجه تحديين رئيسيين: 1) كيف يمكن دمج هذين النهجين بشكل فعّال؟ 2) كيف يمكن تحقيق أداء أعلى مع تعقيد مناسب؟ في هذه الورقة، نقترح كتلة مختلطة فعّالة متوازية من نوع Transformer-CNN (TCM) ذات تعقيد قابل للتحكم، لدمج قدرة الشبكات العصبية التلافيفية على نمذجة السمات المحلية مع قدرة المحولات على نمذجة السمات غير المحلية، بهدف تحسين البنية الشاملة لنماذج ضغط الصور. بالإضافة إلى ذلك، مستوحاة من التطورات الحديثة في نماذج تقدير الانتروبيا ووحدات الانتباه، نقترح نموذج انتروبيا حسب القنوات باستخدام وحدات انتباه قائمة على مُحَوِّل Swin (SWAtten) ذات كفاءة عالية في المعاملات، وذلك من خلال استخدام تقنية تقليل القنوات (channel squeezing). أظهرت النتائج التجريبية أن الطريقة المقترحة تحقق أفضل أداء في مجال معدل الخطأ-الجودة مقارنةً بالأساليب الحالية لـ LIC على ثلاث مجموعات بيانات بذات دقة مختلفة (أي Kodak، Tecnick، CLIC Professional Validation). يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/jmliu206/LIC_TCM.