التعلم المعادي لإنشاء حوار العصبونات

في هذا البحث، مستوحين من اختبار تورينغ، نقترح استخدام التدريب المعادي لإنشاء حوار في مجالات مفتوحة: يتم تدريب النظام على إنتاج سلاسل لا يمكن تمييزها عن العبارات الحوارية التي أنتجتها البشر. نعتبر المهمة كمشكلة تعلم تعزيزي (RL) حيث نقوم بتدريب نظامين معًا، نموذج إنشائي لإنتاج سلاسل الردود، ونموذج تمييز - مشابه للمقيم البشري في اختبار تورينغ - لتمييز بين الحوارات التي أنتجتها البشر والحوارات التي أنتجتها الآلة. ثم يتم استخدام مخرجات النموذج التمييزي كمكافآت للنموذج الإنشائي، مما يدفع النظام إلى إنتاج حوارات تشبه إلى حد كبير الحوارات البشرية.بالإضافة إلى التدريب المعادي، نصف أيضًا نموذجًا لتقييم المعاداة يستخدم النجاح في خداع الخصم كمقياس لتقييم الحوار، مع تجنب عدد من الفخاخ المحتملة. تظهر النتائج التجريبية على عدة مقاييس، بما في ذلك التقييم المعادي، أن النظام الذي تم تدريبه بطريقة المعاداة يولد ردودًا ذات جودة أعلى من الخطوط الأساسية السابقة.