منذ 17 أيام
مقياس تقييم غير مراقب ودون مرجع لتفعيل المحادثة
Shikib Mehri, Maxine Eskenazi

الملخص
يُعدّ غياب مقاييس التقييم التلقائي ذات المعنى للمحادثات عائقًا أمام تقدم الأبحاث في مجال المحادثات العامة. وقد أُظهر أن مقاييس توليد اللغة القياسية غير فعّالة في تقييم نماذج المحادثات. ولحل هذه المشكلة، تقدّم هذه الورقة مقياس التقييم USR، وهو مقياس غير مُوجَّه وغير مُعتمد على مرجعية (UnSupervised and Reference-free) لتقييم المحادثات. يُعدّ USR مقياسًا غير مُعتمد على مرجعية، حيث يُدرّب نماذج غير مُراقبة لقياس عدة صفات مرغوبة في المحادثات. وتمّ تأكيد أن USR يُظهر ارتباطًا قويًا مع التقييم البشري على منصتي Topical-Chat (على مستوى الجملة: 0.42، وعلى مستوى النظام: 1.0) وPersonaChat (على مستوى الجملة: 0.48، وعلى مستوى النظام: 1.0). كما يُنتج USR قياسات قابلة للتفسير لعدة خصائص مرغوبة في المحادثات.