HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المعادي لإنشاء حوار العصبونات

Jiwei Li; Will Monroe; Tianlin Shi; Sébastien Jean; Alan Ritter; Dan Jurafsky

الملخص

في هذا البحث، مستوحين من اختبار تورينغ، نقترح استخدام التدريب المعادي لإنشاء حوار في مجالات مفتوحة: يتم تدريب النظام على إنتاج سلاسل لا يمكن تمييزها عن العبارات الحوارية التي أنتجتها البشر. نعتبر المهمة كمشكلة تعلم تعزيزي (RL) حيث نقوم بتدريب نظامين معًا، نموذج إنشائي لإنتاج سلاسل الردود، ونموذج تمييز - مشابه للمقيم البشري في اختبار تورينغ - لتمييز بين الحوارات التي أنتجتها البشر والحوارات التي أنتجتها الآلة. ثم يتم استخدام مخرجات النموذج التمييزي كمكافآت للنموذج الإنشائي، مما يدفع النظام إلى إنتاج حوارات تشبه إلى حد كبير الحوارات البشرية.بالإضافة إلى التدريب المعادي، نصف أيضًا نموذجًا لتقييم المعاداة يستخدم النجاح في خداع الخصم كمقياس لتقييم الحوار، مع تجنب عدد من الفخاخ المحتملة. تظهر النتائج التجريبية على عدة مقاييس، بما في ذلك التقييم المعادي، أن النظام الذي تم تدريبه بطريقة المعاداة يولد ردودًا ذات جودة أعلى من الخطوط الأساسية السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المعادي لإنشاء حوار العصبونات | مستندات | HyperAI