HyperAIHyperAI
منذ 2 أشهر

الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية

Keerthiram Murugesan; Mattia Atzeni; Pavan Kapanipathi; Pushkar Shukla; Sadhana Kumaravel; Gerald Tesauro; Kartik Talamadupula; Mrinmaya Sachan; Murray Campbell
الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية
الملخص

الألعاب القائمة على النصوص قد ظهرت كمنصة اختبار مهمة لأبحاث التعلم التعزيزي (RL)، حيث تتطلب من وكيلات التعلم التعزيزي دمج فهم اللغة المبني على الأسس مع صنع القرارات المتسلسلة. في هذا البحث، نقوم بفحص مشكلة تزويد وكيلات التعلم التعزيزي بالمعرفة الشائعة. ستسمح هذه المعرفة للوكلاء بالعمل بكفاءة في العالم من خلال استبعاد الأفعال غير الممكنة، وإجراء التخطيط الاستباقي لتحديد كيف قد تؤثر الأفعال الحالية على حالات العالم المستقبلية. نصمم بيئة ألعاب جديدة قائمة على النصوص تُدعى "TextWorld Commonsense" (TWC) لتدريب وتقييم وكيلات التعلم التعزيزي بمعرفة شائعة محددة حول الأشياء، صفاتها، وقابليتها للتنفيذ. كما نقدم عدة وكلاء تعلم تعزيزي قاعدة يمكنهم تتبع السياق المتسلسل واسترجاع المعرفة الشائعة ذات الصلة من ConceptNet بشكل ديناميكي. نظهر أن الوكلاء الذين يدمجون المعرفة الشائعة في TWC يحققون أداءً أفضل بينما يعملون بكفاءة أكبر. نجري دراسات مستخدمين لتقييم أداء الإنسان في TWC ونوضح أنه يوجد مجال كبير للتحسين المستقبلي.

الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية | أحدث الأوراق البحثية | HyperAI