HyperAIHyperAI

Command Palette

Search for a command to run...

MDD-Eval: التدريب الذاتي على البيانات المُعزَّزة لتقييم المحادثات متعددة المجالات

Chen Zhang Luis Fernando D&#39 Haro Thomas Friedrichs Haizhou Li

الملخص

تم تصميم الدردشات الآلية (Chatbots) لإجراء محادثات تشبه المحادثات البشرية في مجالات مختلفة، مثل الحوار العام، تبادل المعرفة، والمحادثات المرتبطة بالشخصية. ولقياس جودة هذه الوكالات الحوارية، يتوقع أن يقوم مُقيّم الحوار التلقائي بإجراء تقييم متعدد المجالات. ومع ذلك، فإن معظم المقاييس الحديثة للتحفيز التلقائي للحوار (ADMs) لا تم تصميمها لتقديم تقييم متعدد المجالات. وقد دفعنا هذا إلى تصميم إطار عام وقوي يُسمى MDD-Eval لمعالجة هذه المشكلة. بشكل محدد، نقوم أولاً بتدريب مُقيّم "معلم" باستخدام بيانات مُعلّمة يدويًا، بهدف اكتساب مهارة التقييم التي تمكّنه من التمييز بين ردود الحوار الجيدة والسيئة في مجال معين، ثم نستخدم استراتيجية التدريب الذاتي لتدريب مُقيّم جديد باستخدام بيانات متعددة المجالات المُعلّمة من قبل المعلم، مما يسهم في تمكين المُقيّم الجديد من التعميم عبر مجالات متعددة. وقد تم تقييم MDD-Eval بشكل واسع على ستة معايير تقييم للحوار. وأظهرت النتائج التجريبية أن إطار MDD-Eval يحقق أداءً قويًا، مع تحسن مطلق قدره 7% مقارنة بالمقاييس الحديثة في متوسط درجات الارتباط لسبيرمان عبر جميع معايير التقييم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MDD-Eval: التدريب الذاتي على البيانات المُعزَّزة لتقييم المحادثات متعددة المجالات | مستندات | HyperAI