
تقييم وكيل ذكاء اصطناعي قادر على التحدث بلغة بشرية وفهم المحتوى البصري يُعد تحديًا. تُفضّل مقاييس التوليد، مثل درجات BLEU، البنية النحوية الصحيحة على المعنى. ولهذا السبب، يُستخدم غالبًا نهج تمييزي، حيث يُرتب الوكيل مجموعة من الخيارات المرشحة. وتحدد مقياس المدى المتوسط العكسي (MRR) أداء النموذج من خلال أخذ الترتيب الخاص بالإجابة البشرية الوحيدة بعين الاعتبار. لكن هذا النهج يثير تحديًا جديدًا: الغموض والتعددية في التعبيرات (مثلاً، التكافؤ المعنوي مثل "yeah" و"yes"). ولحل هذه المشكلة، تم استخدام مقياس القيمة المُعطّلة المُضاعفة المُعدّلة (NDCG) لالتقاط صلة جميع الإجابات الصحيحة من خلال تسميات كثيفة. ومع ذلك، فإن مقياس NDCG يُفضّل الإجابات غير المؤكدة التي تُستخدم عادةً، مثل "لا أعرف". ويشكّل إنشاء نموذج يتفوّق في كلا مقياسي MRR وNDCG تحديًا كبيرًا. وبحسب الرؤية المثالية، يجب أن يُقدّم الوكيل الذكي إجابة تشبه الإجابة البشرية، ويتمكّن من التحقق من صحة أي إجابة. ولحل هذه المشكلة، نصف نهجًا تدرجيًا غير معلمي يتكون من خطوتين، يمكنه دمج النماذج القوية في كلا المقياسي MRR وNDCG. وباستخدام هذا النهج، تمكّنا من الحفاظ على معظم الأداء القياسي في MRR (70.41% مقابل 71.24%) والأداء القياسي في NDCG (72.16% مقابل 75.35%). علاوة على ذلك، فاز هذا النهج بتحدي "الحوار البصري 2020" الأخير. يُمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/idansc/mrr-ndcg.