HyperAIHyperAI
منذ 15 أيام

الشيطان في التفاصيل: الانتباه القائم على النافذة لضغط الصور

Renjie Zou, Chunfeng Song, Zhaoxiang Zhang
الشيطان في التفاصيل: الانتباه القائم على النافذة لضغط الصور
الملخص

أظهرت الأساليب المُتعلمة لضغط الصور أداءً متفوقًا في أداء معدل التجزئة-الانحراف مقارنةً بالمعايير التقليدية لضغط الصور. تعتمد معظم النماذج الحالية للضغط الصوري المُتعلم على الشبكات العصبية التلافيفية (CNN). وعلى الرغم من الإسهامات الكبيرة التي قدمتها، فإن العيب الرئيسي في النماذج القائمة على CNN هو أن هيكلها لم يُصمم خصيصًا لاستكشاف التكرار المحلي، وخاصة النسيج غير المتكرر، مما يؤثر بشكل كبير على جودة إعادة البناء. وبالتالي، أصبح استغلال كلاً من البنية العالمية والتفاصيل المحلية بشكل كامل المشكلة الأساسية في ضغط الصور القائم على التعلم. مستوحاة من التقدم الأخير في نماذج "مُحول البصر" (Vision Transformer) و"مُحول سوين" (Swin Transformer)، وجدنا أن دمج آلية الانتباه الواعية بالمكان مع تعلم السمات المرتبطة بالعالم يمكن أن يحقق التوقعات المطلوبة في ضغط الصور. في هذه الورقة، نقوم أولًا بدراسة معمقة لتأثير أنواع متعددة من آليات الانتباه في تعلم السمات المحلية، ثم نقدم بلوكًا فعّالًا ومبسطًا يعتمد على النافذة (window-based) لآلية الانتباه المحلية. يمتاز الانتباه القائم على النافذة المُقترح بقدرته الكبيرة على المرونة، حيث يمكنه العمل كمكون جاهز للتركيب (plug-and-play) لتعزيز نماذج CNN وTransformer. علاوةً على ذلك، نقترح إطارًا جديدًا يُسمى "مُحول متماثل" (Symmetrical TransFormer - STF)، يعتمد على بلوكات مُحول مطلقة في المُشفر المُخفض للعينة (down-sampling encoder) والمشفر المُكبّر للعينة (up-sampling decoder). أظهرت التقييمات التجريبية الواسعة أن الطريقة المقترحة فعّالة، وتتفوق على أحدث الطرق المُعتمدة في المجال. يُمكن الوصول إلى الكود المصدري بشكل عام عبر الرابط: https://github.com/Googolxx/STF.

الشيطان في التفاصيل: الانتباه القائم على النافذة لضغط الصور | أحدث الأوراق البحثية | HyperAI