الرمز التالي كافٍ: جودة صورة واقعية وتقييم جمالي باستخدام نموذج لغة كبير متعدد الوسائط

أدى التوسع السريع في الإنترنت المتنقل إلى زيادة كبيرة في محتوى الصور الذي يُنشئه المستخدمون (UGC)، مما جعل تقييم هذه الصور بشكل شامل أمرًا عاجلًا وضروريًا. في الآونة الأخيرة، أظهرت النماذج الكبيرة متعددة الوسائط للغة (MLLMs) إمكانات كبيرة في مجال تقييم جودة الصور (IQA) وتقييم الجمالية البصرية للصور (IAA). وعلى الرغم من هذا التقدم، تواجه عملية تقييم جودة وجمال الصور المُنشأة من قبل المستخدمين تحديين رئيسيين: أولاً، أن الدرجة الواحدة لا تكفي لالتقاط التصنيف الهرمي للإدراك البشري؛ ثانيًا، لا يزال هناك سؤال مفتوح حول كيفية استخدام النماذج MLLMs لإنتاج درجات رقمية، مثل درجات الرأي المتوسط (MOS). ولحل هذين التحديين، نقدم مجموعة بيانات جديدة تُسمى Realistic image Quality and Aesthetic (RealQA)، والتي تتضمن 14,715 صورة من محتوى المستخدمين، وكل صورة مُعلَّمة بـ 10 خصائص دقيقة. تمتد هذه الخصائص عبر ثلاث مستويات: مستوى منخفض (مثل وضوح الصورة)، ومستوى متوسط (مثل سلامة الموضوع)، ومستوى عالٍ (مثل التكوين البصري). بالإضافة إلى ذلك، نقوم بسلسلة من الدراسات العميقة والشاملة حول كيفية التنبؤ الفعّال بالدرجات الرقمية باستخدام النماذج MLLMs. وفاجأتنا النتائج بأن التنبؤ ببساطة بـ رقمين معنويين إضافيين يُمكن من تحقيق أداءً متفوقًا على الحد الأقصى (SOTA). علاوة على ذلك، وبمساعدة نموذج التفكير المتسلسل (Chain of Thought - CoT) المدمج مع الخصائص الدقيقة المُكتسبة، يمكن للطريقة المقترحة أن تتفوق على أحدث الطرق في خمس مجموعات بيانات عامة لتقييم جودة الصور والجمالية البصرية، مع تفسير أكثر وضوحًا، كما تُظهر قدرة قوية على التعميم بدون تدريب مسبق (zero-shot generalization) في تقييم جودة الفيديو (VQA). سيتم إصدار الكود والبيانات.