MDD-Eval: التدريب الذاتي على البيانات المُعزَّزة لتقييم المحادثات متعددة المجالات

تم تصميم الدردشات الآلية (Chatbots) لإجراء محادثات تشبه المحادثات البشرية في مجالات مختلفة، مثل الحوار العام، تبادل المعرفة، والمحادثات المرتبطة بالشخصية. ولقياس جودة هذه الوكالات الحوارية، يتوقع أن يقوم مُقيّم الحوار التلقائي بإجراء تقييم متعدد المجالات. ومع ذلك، فإن معظم المقاييس الحديثة للتحفيز التلقائي للحوار (ADMs) لا تم تصميمها لتقديم تقييم متعدد المجالات. وقد دفعنا هذا إلى تصميم إطار عام وقوي يُسمى MDD-Eval لمعالجة هذه المشكلة. بشكل محدد، نقوم أولاً بتدريب مُقيّم "معلم" باستخدام بيانات مُعلّمة يدويًا، بهدف اكتساب مهارة التقييم التي تمكّنه من التمييز بين ردود الحوار الجيدة والسيئة في مجال معين، ثم نستخدم استراتيجية التدريب الذاتي لتدريب مُقيّم جديد باستخدام بيانات متعددة المجالات المُعلّمة من قبل المعلم، مما يسهم في تمكين المُقيّم الجديد من التعميم عبر مجالات متعددة. وقد تم تقييم MDD-Eval بشكل واسع على ستة معايير تقييم للحوار. وأظهرت النتائج التجريبية أن إطار MDD-Eval يحقق أداءً قويًا، مع تحسن مطلق قدره 7% مقارنة بالمقاييس الحديثة في متوسط درجات الارتباط لسبيرمان عبر جميع معايير التقييم.