HyperAIHyperAI
منذ 12 أيام

دمج المعرفة من مدرسين اثنين لنظام الحوار الموجه للمهمة مع التدريب العدواني

{Ruifeng Xu, Ying Shen, Chengming Li, Rui Yan, Min Yang, Wanwei He}
دمج المعرفة من مدرسين اثنين لنظام الحوار الموجه للمهمة مع التدريب العدواني
الملخص

إن التحدي المتمثل في تحقيق إتمام المهام من خلال استعلام قاعدة المعرفة وإنتاج ردود تشبه ردود البشر في أنظمة المحادثة الموجهة للمهام يجذب اهتمامًا بحثيًا متزايدًا. في هذه الورقة، نقترح إطارًا تعلميًا يُسمى "مُعلّمان، طالب واحد" (TTOS) للحوارات الموجهة للمهام، بهدف استرجاع كيانات دقيقة من قاعدة المعرفة وإنتاج ردود تشبه ردود البشر في آنٍ واحد. يدمج إطار TTOS المعرفة من شبكتين مُعلّمتين، حيث تُقدّم هاتان الشبكتان معًا توجيهًا شاملاً لبناء نظام حواري موجه للمهام عالي الجودة (الشبكة الطالبة). يتم تدريب كل شبكة مُعلّمة باستخدام التعلم بالتحفيز (reinforcement learning) مع مكافأة محددة حسب الهدف، والتي يمكن اعتبارها خبيرًا في هذا الهدف، وتحوّل السمات الاحترافية إلى الشبكة الطالبة. بدلًا من اعتماد نموذج التعلم التقليدي للطالب والمُعلّم الذي يُجبر الطالب على تقليد مخرجات المُعلّم بدقة (أي النواتج الناعمة التي تولّدها الشبكات المُعلّمة)، نُقدّم مُميّزين (discriminators) اثنين، تمامًا كما في الشبكات التوليدية المتنافسة (GAN)، لنقل المعرفة من الشبكتين المُعلّمتين إلى الطالب. استخدام المُميّزين يخفّف من الارتباط الصارم بين الطالب والمُعلّمين. أظهرت تجارب واسعة على مجموعتي بيانات معياريتين (ألا وهما CamRest وIn-Car Assistant) أن TTOS يتفوّق بشكل كبير على الطرق الأساسية.

دمج المعرفة من مدرسين اثنين لنظام الحوار الموجه للمهمة مع التدريب العدواني | أحدث الأوراق البحثية | HyperAI