نموذج الديناميكا متعدد الخطوات يُحسّن التنبؤات المستقبلية للتعلم القوي عبر الإنترنت والخارج عن الإنترنت

تُعد الطرق القائمة على النماذج في التعلم التكاملي منهجيات واعدة لتعزيز كفاءة البيانات من خلال تمكين استكشاف السياسات داخل نموذج ديناميكي. ومع ذلك، لا يزال التنبؤ الدقيق بالخطوات التسلسلية في نموذج الديناميكية تحديًا بسبب التنبؤ بالاستناد إلى التقديرات التراكمية، التي تُعزى الحالة التالية إلى تنبؤ الحالة الحالية. وهذا يؤدي إلى تراكم الأخطاء أثناء عملية تشغيل النموذج (model roll-out). في هذه الورقة، نقترح نموذج الديناميكية بأي خطوة (Any-step Dynamics Model - ADM) لتقليل الخطأ المتراكم من خلال تقليل التنبؤ بالاستناد إلى التقديرات إلى تنبؤ مباشر. يتيح ADM استخدام خطط ذات أطوال متغيرة كمدخلات للتنبؤ بالحالات المستقبلية دون الحاجة إلى التنبؤ بالاستناد إلى التقديرات بشكل متكرر. وقد صممنا خوارزميتين، وهما ADMPO-ON وADMPO-OFF، اللتان تطبّقان ADM في إطارين قائمين على النموذج: الأول على الإنترنت (online)، والثاني خارج الإنترنت (offline). في البيئة على الإنترنت، تُظهر ADMPO-ON كفاءة أعلى في استخدام العينات مقارنة بالطرق الأفضل حتى الآن. وفي البيئة خارج الإنترنت، لا تُظهر ADMPO-OFF أداءً متفوقًا مقارنة بالأساليب الحديثة الأفضل في هذا المجال فحسب، بل تُقدّم أيضًا تقييمًا أفضل لعدم اليقين في النموذج باستخدام نموذج ADM واحد فقط.