الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية

الألعاب القائمة على النصوص قد ظهرت كمنصة اختبار مهمة لأبحاث التعلم التعزيزي (RL)، حيث تتطلب من وكيلات التعلم التعزيزي دمج فهم اللغة المبني على الأسس مع صنع القرارات المتسلسلة. في هذا البحث، نقوم بفحص مشكلة تزويد وكيلات التعلم التعزيزي بالمعرفة الشائعة. ستسمح هذه المعرفة للوكلاء بالعمل بكفاءة في العالم من خلال استبعاد الأفعال غير الممكنة، وإجراء التخطيط الاستباقي لتحديد كيف قد تؤثر الأفعال الحالية على حالات العالم المستقبلية. نصمم بيئة ألعاب جديدة قائمة على النصوص تُدعى "TextWorld Commonsense" (TWC) لتدريب وتقييم وكيلات التعلم التعزيزي بمعرفة شائعة محددة حول الأشياء، صفاتها، وقابليتها للتنفيذ. كما نقدم عدة وكلاء تعلم تعزيزي قاعدة يمكنهم تتبع السياق المتسلسل واسترجاع المعرفة الشائعة ذات الصلة من ConceptNet بشكل ديناميكي. نظهر أن الوكلاء الذين يدمجون المعرفة الشائعة في TWC يحققون أداءً أفضل بينما يعملون بكفاءة أكبر. نجري دراسات مستخدمين لتقييم أداء الإنسان في TWC ونوضح أنه يوجد مجال كبير للتحسين المستقبلي.