HPSv3: نحو درجة تفضيل الإنسان الشاملة

يُعد تقييم نماذج إنشاء الصور من النصوص مرهونًا بالانسجام مع الإدراك البشري، إلا أن المقاييس الحالية المُركّزة حول الإنسان تواجه قيودًا تتمثل في تغطية بيانات محدودة، واستخلاص ميزات غير مثلى، ووظائف خسارة غير فعّالة. ولحل هذه التحديات، نقدّم درجة التفضيل البشري النسخة الثالثة (HPSv3). (1) نُطلق HPDv3، أول مجموعة بيانات شاملة للتفضيل البشري، تدمج 1.08 مليون زوج من النصوص والصور، و1.17 مليون مقارنة ثنائية مُعلّمة مستمدة من نماذج توليد متطورة، بالإضافة إلى صور حقيقية ذات جودة منخفضة إلى عالية. (2) نقدّم نموذج تفضيل مبني على نموذج لغة وصورة (VLM)، تم تدريبه باستخدام دالة خسارة مراعية للغموض في الترتيب، لتمكين الترتيب الدقيق. بالإضافة إلى ذلك، نقترح منهجية تحسين تكرارية للصور تُسمى سلسلة التفضيل البشري (CoHP)، التي تُحسّن جودة الصور دون الحاجة إلى بيانات إضافية، باستخدام HPSv3 لاختيار الصورة الأفضل في كل خطوة. تُظهر التجارب الواسعة أن HPSv3 تعمل كمقياس قوي لتقييم الصور على نطاق واسع، وأن CoHP تُقدّم نهجًا فعّالًا ومتوافقًا مع التفضيل البشري لتحسين جودة إنشاء الصور. يمكن الاطلاع على الكود والبيانات على الصفحة الرسمية لـ HPSv3.