MLIC: نموذج الانتروبيا متعدد المراجع للضغط المُدرَّب على الصور

في الآونة الأخيرة، حققت ضغط الصور المستند إلى التعلم المُدرَّب أداءً ملحوظًا. تلعب نموذج الانتروبيا، الذي يُقدّر توزيع التمثيل الخفي، دورًا حاسمًا في تحسين الأداء من حيث توازن المعدل-الانحراف (rate-distortion). ومع ذلك، فإن معظم نماذج الانتروبيا تُركّز فقط على ارتباطات ذات بعد واحد، بينما يحتوي التمثيل الخفي على ارتباطات متعددة الأنواع، منها ارتباطات حسب القنوات (channel-wise)، وارتباطات مكانية محلية (local spatial)، وارتباطات مكانية عالمية (global spatial). لمعالجة هذه المشكلة، نقترح نموذج الانتروبيا متعدد المراجع (MEM) والنسخة المتطورة منه MEM$^+$. يُعدّان قادرين على التقاط الأنواع المختلفة من الارتباطات الموجودة في التمثيل الخفي. بشكل محدد، نقوم أولًا بقسمة التمثيل الخفي إلى شرائح. عند فك تشفير الشريحة الحالية، نستخدم الشرايح المُفكّكة سابقًا كسياق، ونستخدم خريطة الانتباه (attention map) للشريحة المُفكّكة سابقًا للتنبؤ بالارتباطات العالمية في الشريحة الحالية. ولالتقاط السياقات المحلية، نُقدّم تقنيتين محسّنتين لالتقاط السياق على نمط الشطرنج (checkerboard)، وهما تتجنبان التدهور في الأداء. بناءً على نموذجي MEM وMEM$^+$، نقترح نماذج ضغط صور تُسمى MLIC وMLIC$^+$. أظهرت التقييمات التجريبية الواسعة أداءً متميزًا، حيث تقلّل نماذجنا MLIC وMLIC$^+$ من معدل BD-rate بنسبة 8.05% و11.39% على مجموعة بيانات Kodak مقارنةً بـ VTM-17.0 عند قياس الأداء بمعيار PSNR. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/JiangWeibeta/MLIC.