HyperAIHyperAI

Command Palette

Search for a command to run...

Console

GenEval 2: معالجة الانزلاق المعياري في تقييم النص إلى الصورة

Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad

Abstract

يُعد تقييم نماذج التوليد النصي إلى الصورة (T2I) تلقائيًا تحديًا كبيرًا؛ إذ يتطلب استخدام نموذج مُقيّم لتقديم تقييمات حول الدقة، ويجب اختيار مُحفّزات الاختبار (test prompts) بحيث تكون صعبة على النماذج الحالية لـ T2I، ولكنها ليست صعبة على نموذج المُقيّم. نحن نرى أن الالتزام بهذه القيود يمكن أن يؤدي إلى ظاهرة "انحراف المعيار" (benchmark drift) بمرور الوقت، حيث يصبح المعيار الثابت المُستخدم في التقييم غير قادر على مواكبة التطورات في قدرات النماذج الأحدث. نُظهر أن انحراف المعيار يُعد مشكلة جوهرية في GenEval، أحد أكثر معايير تقييم T2I انتشارًا. على الرغم من أن GenEval كان مُتماشيًا جيدًا مع التقييم البشري عند إصداره، إلا أنه قد ابتعد بشكل كبير عن التقييم البشري بمرور الوقت — ما أدى إلى خطأ مطلق يصل إلى 17.7% في تقييم النماذج الحالية. يشير هذا المستوى من الانحراف بقوة إلى أن GenEval قد تأثر بالاستيعاب (saturation) منذ فترة طويلة، كما نؤكد ذلك من خلال دراسة بشرية على نطاق واسع. لسد الفجوة في التقييم، نُقدّم معيارًا جديدًا يُسمى GenEval 2، الذي يُحسّن تغطية المفاهيم البصرية الأساسية (primitive visual concepts) ويزيد من درجة التراكب (compositionality)، ونُظهر أنه أكثر صعوبة على النماذج الحالية. كما نُقدّم Soft-TIFA، وهي طريقة تقييم لـ GenEval 2 تُدمج التقييمات للعناصر البصرية الأساسية، ونُظهر أن هذه الطريقة أكثر تماشيًا مع التقييم البشري، ونُجادل بأنها أقل عرضة للانحراف عن التماشي مع التقييم البشري بمرور الوقت (مقارنةً بالنماذج المُقيّمة الشاملة مثل VQAScore). وعلى الرغم من أملنا في أن يُعد GenEval 2 معيارًا قويًا يمكن الاعتماد عليه لسنوات عديدة، فإن تجنب انحراف المعيار ليس مضمونًا، وبشكل عام، تُبرز دراستنا أهمية المراجعة المستمرة والتحسين المستمر لمعاير تقييم النماذج التلقائية، خاصةً في مجالات T2I والمعاير المرتبطة بها.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GenEval 2: معالجة الانزلاق المعياري في تقييم النص إلى الصورة | Papers | HyperAI