GALAXY: نموذج توليدي مُدرب مسبقًا للحوار الموجه نحو المهام مع التعلم شبه المشرف والحقن الصريح للسياسة

أثبتت النماذج المدربة مسبقًا فعاليتها في تحسين أنظمة الحوار الموجهة للمهام. ومع ذلك، فإن طرق التدريب المسبق الحالية تركز بشكل أساسي على تعزيز مهام فهم وتكوين الحوار بينما تتجاهل استغلال سياسة الحوار. في هذا البحث، نقترح GALAXY (غالاكسي)، وهو نموذج حوار مدرب مسبقًا جديد يتعلم صراحةً سياسة الحوار من حوارات ذات علامات محدودة ومن قواعد بيانات حوارات كبيرة بدون علامات عبر التعلم شبه المنظم. تحديدًا، نقدم مهمة تنبؤ بسلوك الحوار لتحسين السياسة أثناء التدريب المسبق، ونستخدم حدًا ثابتًا للتوافق لصقل التمثيلات المستفادة بمساعدة البيانات بدون العلامات. كما نقوم بتنفيذ آلية التحكم في البوابات لتقييم العينات المناسبة من البيانات بدون العلامات. أظهرت النتائج التجريبية أن GALAXY يحسن بشكل كبير أداء أنظمة الحوار الموجهة للمهام، ويحقق نتائج جديدة رائدة على مجموعات البيانات المرجعية: In-Car (إن-كار)، MultiWOZ2.0 (متعددWOZ2.0) و MultiWOZ2.1 (متعددWOZ2.1)، حيث تم تحسين درجاتهم المركبة من النهاية إلى النهاية بمقدار 2.5، 5.3 و 5.5 نقطة على التوالي. كما أظهرنا أن GALAXY يتمتع بقدرة أقوى على التعامل مع حالات القليل من العينات مقارنة بالنماذج الموجودة تحت مختلف الإعدادات ذات المصادر المنخفضة.