فقط تدريب مرة واحدة: إطار موحد لتقييم جودة الصور مع وجود مرجع كامل وعدم وجود مرجع

رغم الجهود الأخيرة في تقييم جودة الصور (IQA) والتي حققت أداءً واعداً، لا يزال هناك فجوة كبيرة مقارنة بنظام الرؤية البشري (HVS). أحد الاختلافات الرئيسية يتمثل في الانتقال السلس للبشر بين المهام المرجعية الكاملة (FR) والمهام غير المرجعية (NR)، بينما تقتصر النماذج الحالية على إحدى هاتين الفئتين فقط. هذا الاختلاف يشير إلى ضرورة تصميم نظامين منفصلين، مما يقلل بشكل كبير من مرونة النموذج. لذلك، فإن تركيزنا يكمن في توحيد المهام المرجعية الكاملة والمهام غير المرجعية تحت إطار عمل واحد. تحديداً، نقوم أولاً بتوظيف مشفّر لاستخراج الخصائص متعددة المستويات من الصور المدخلة. ثم نقترح وحدة انتباه هرمي (HA) كمتكيف عام لكل من المدخلات المرجعية الكاملة وغير المرجعية لنمذجة التشوه المكاني في كل مرحلة من مراحل المشفّر. علاوة على ذلك، بالنظر إلى أن أنواع مختلفة من التشوهات تلوث مراحل المشفّر وتضر بمعنى الصورة الدلالي بشكل مختلف، فقد تم اقتراح وحدة الوعي بالتشوه الدلالي (SDA) لفحص الارتباطات بين الطبقات السطحية والعميقة للمشفّر. عن طريق تبني HA و SDA، يمكن للشبكة المقترحة أن تقوم بكفاءة بتقييم جودة الصور في كلتا الحالتين: المرجعية الكاملة وغير المرجعية. عند تدريب النموذج المقترح بشكل مستقل على مهام IQA غير المرجعية أو المرجعية الكاملة، فإنه يتفوق على النماذج الموجودة ويحقق أداءً رائدًا. بالإضافة إلى ذلك، عند التدريب المشترك على مهام IQA غير المرجعية والمرجعية الكاملة، فإنه يعزز الأداء في مهام IQA غير المرجعية مع تحقيق أداءٍ موازٍ لأفضل الأداء الموجود في مهام IQA المرجعية الكاملة. يمكنك التدريب مرة واحدة فقط لأداء كلا مهمتي IQA. سيتم نشر الكود في: https://github.com/BarCodeReader/YOTO.