MLIC++: نموذج تباين متعدد المراجع ذات تعقيد خطي للضغط المُتعلم للصور

تمثيل المُعلَّق في ضغط الصور المستند إلى التعلم يحتوي على ارتباطات قناة-بشكل محلي، وارتباطات فضائية عالمية، وهي عناصر حاسمة لنموذج الانتروبيا لالتقاط هذه السياقات بهدف تقليل الانتروبيا الشرطية. يشكل التقاط هذه السياقات بكفاءة ضمن نموذج انتروبيا واحد، خاصة في ترميز الصور عالية الدقة، تحديًا بسبب التعقيد الحسابي للوحدات الحالية التي تُعالج السياق العالمي. لمعالجة هذا التحدي، نقترح نموذج الانتروبيا متعدد المراجع بتعقيد خطي (MEM$^{++}$). بشكل محدد، يتم تقسيم التمثيل المُعلَّق إلى عدة شرائح. بالنسبة للسياقات القناة-بشكل، تُستخدم الشرائح المضغوطة سابقًا كسياق لضغط شريحة معينة. أما بالنسبة للسياقات المحلية، نُقدّم وحدة انتباه على شكل شبكة مربعات قائمة على نافذة منزَّزة، والتي تضمن تعقيدًا خطيًا دون التضحية بالأداء. أما بالنسبة للسياقات العالمية، نقترح آلية انتباه بتعقيد خطي، تُمكّن من التقاط الارتباطات العالمية من خلال تفكيك عملية softmax، مما يسمح بحساب خرائط الانتباه ضمنيًا من الشرائح المُفكَّكة سابقًا. باستخدام MEM$^{++}$ كنموذج انتروبيا، نطوّر طريقة ضغط الصور MLIC$^{++}$. تُظهر النتائج التجريبية الواسعة أن MLIC$^{++}$ تحقق أداءً من الدرجة الأولى، حيث تقلل من معدل BD بنسبة 13.39% على مجموعة بيانات Kodak مقارنةً بـ VTM-17.0 من حيث نسبة الإشارة إلى الضوضاء القصوى (PSNR). علاوةً على ذلك، تُظهر MLIC$^{++}$ تعقيدًا حسابيًا ومستهلكة ذاكرة خطية بالنسبة للدقة، مما يجعلها مناسبة جدًا لتشفير الصور عالية الدقة. يمكن الوصول إلى الكود والنماذج المُدرَّبة مسبقًا عبر الرابط: https://github.com/JiangWeibeta/MLIC. كما يتوفر مجموعة التدريب عبر: https://huggingface.co/datasets/Whiteboat/MLIC-Train-100K.