HyperAIHyperAI
منذ 2 أشهر

استخدام أنظمة الذاكرة المشابهة للبشرية المستندة إلى الرسوم المعرفية لحل العمليات القرارية الماركوفية الجزئياً مراقبة

Taewoon Kim; Vincent François-Lavet; Michael Cochez
استخدام أنظمة الذاكرة المشابهة للبشرية المستندة إلى الرسوم المعرفية لحل العمليات القرارية الماركوفية الجزئياً مراقبة
الملخص

يلاحظ البشر جزءًا فقط من بيئتهم في أي لحظة، ومع ذلك يمكنهم اتخاذ قرارات معقدة وطويلة المدى بفضل ذاكرتهم طويلة المدى. لاختبار كيفية تعلم الذكاء الاصطناعي واستخدام ذاكرته طويلة المدى، طورنا بيئة عمليات قرار ماركوف الجزئية القابلة للمراقبة (POMDP)، حيث يجب على الوكيل الإجابة على الأسئلة أثناء التنقل في متاهة. تعتمد هذه البيئة تمامًا على الرسم البياني للمعرفة (KG)، حيث تكون الحالة الخفية رسمًا بيانيًا ديناميكيًا للمعرفة. الرسم البياني للمعرفة قابل للقراءة من قبل البشر والآلات، مما يجعل من السهل رؤية ما يتذكره الوكلاء وما ينسونه. نقوم بتدريب ومقارنة وكالات ذات أنظمة ذاكرة مختلفة، لإلقاء الضوء على كيفية عمل الدماغ البشري عند إدارة ذاكرته الخاصة. من خلال إعادة صياغة الهدف التعليمي المعطى كتعلم سياسة إدارة الذاكرة، تمكنا من التقاط الحالة الخفية الأكثر احتمالًا، والتي ليست فقط قابلة للتفسير ولكن أيضًا قابلة لإعادة الاستخدام.

استخدام أنظمة الذاكرة المشابهة للبشرية المستندة إلى الرسوم المعرفية لحل العمليات القرارية الماركوفية الجزئياً مراقبة | أحدث الأوراق البحثية | HyperAI