HyperAIHyperAI

Command Palette

Search for a command to run...

الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية

Keerthiram Murugesan Mattia Atzeni Pavan Kapanipathi Pushkar Shukla Sadhana Kumaravel Gerald Tesauro Kartik Talamadupula Mrinmaya Sachan Murray Campbell

الملخص

الألعاب القائمة على النصوص قد ظهرت كمنصة اختبار مهمة لأبحاث التعلم التعزيزي (RL)، حيث تتطلب من وكيلات التعلم التعزيزي دمج فهم اللغة المبني على الأسس مع صنع القرارات المتسلسلة. في هذا البحث، نقوم بفحص مشكلة تزويد وكيلات التعلم التعزيزي بالمعرفة الشائعة. ستسمح هذه المعرفة للوكلاء بالعمل بكفاءة في العالم من خلال استبعاد الأفعال غير الممكنة، وإجراء التخطيط الاستباقي لتحديد كيف قد تؤثر الأفعال الحالية على حالات العالم المستقبلية. نصمم بيئة ألعاب جديدة قائمة على النصوص تُدعى "TextWorld Commonsense" (TWC) لتدريب وتقييم وكيلات التعلم التعزيزي بمعرفة شائعة محددة حول الأشياء، صفاتها، وقابليتها للتنفيذ. كما نقدم عدة وكلاء تعلم تعزيزي قاعدة يمكنهم تتبع السياق المتسلسل واسترجاع المعرفة الشائعة ذات الصلة من ConceptNet بشكل ديناميكي. نظهر أن الوكلاء الذين يدمجون المعرفة الشائعة في TWC يحققون أداءً أفضل بينما يعملون بكفاءة أكبر. نجري دراسات مستخدمين لتقييم أداء الإنسان في TWC ونوضح أنه يوجد مجال كبير للتحسين المستقبلي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الوكلاء المعتمدون على التعلم التعزيزي القائم على النص والمعرفة الشائعة: تحديات جديدة، بيئات وأسس مرجعية | مستندات | HyperAI