طريقة جديدة للمكافآت المتغيرة: تحسين تدريب الأنظمة الذكية بسرعة أكبر باستخدام البيانات غير النقية
بحث جديد من فريق بحث بقيادة الدكتور لي مينغ شوان من جامعة كولومبيا الأمريكية قد قدم معادلة بيلمان السببية، وهي تقنية يمكنها حساب حدود العلوي للدالة القيمية الأمثل باستخدام بيانات مشاهدة قد تحتوي على متغيرات مختلطة. وقد أثبت الفريق أن استخدام هذا الحد العلوي في تصميم دالة المكافآت يمكن أن يسرع عملية التعلم عبر الإنترنت ويساعد الذكاء الاصطناعي على الوصول إلى أفضل أداء في بعض الخوارزميات. الباحثون يتوقعون أن يمكن توسيع هذا العمل ليشمل تطبيقات روبوتية أكثر تعقيداً واقتراباً من البيئات الحقيقية. هذا يعني أنه يمكن جمع البيانات المستخدمة في تصميم دالة المكافآت من مصادر مختلفة، مثل تسجيلات لأداء ذكاء اصطناعي آخر أو حتى أمثلة بشرية، وليس فقط من بيانات الروبوت نفسه. في سياق التعلم التقويمي، يصبح من الصعب تدريب الذكاء الاصطناعي على القيام بمهمة معقدة عندما يكون تقييم التقدم فيها غير واضح. على سبيل المثال، لتدريب ذراع آلي على حل مكعب روبيك، يمكن أن يكون الإشارة الوحيدة إلى إكمال المهمة هي حل المكعب خلال وقت معين، دون وجود أي مؤشرات على صحة الخطوات الوسطية. هذا يجعل الخوارزمية تواجه صعوبة في الحصول على بيانات تدريب فعالة، حيث يكون من الصعب التوصل إلى تحكم صحيح بمجرد الاستكشاف العشوائي. ولذلك، اعتمدت مقالة سابقة من OpenAI على إضافة مكافآت تكميلية لمساعدات الذراع الآلي خلال عملية الحل. إضافة المكافآت التكميلية التي لا تؤثر على الاستراتيجية الأمثل للذكاء الاصطناعي تعرف بتقنية PBRS (التشكيل القائم على الإمكانات)، وهي تقنية طرحها العالم وانغ إن دا في عام 1999. ومع ذلك، فإن هذه الطريقة تتطلب الكثير من الوقت والجهد لتصميم وتكييف المكافآت لكل مهمة جديدة، مما يجعلها غير مستدامة في ضوء الطلب المتزايد على الذكاء الاصطناعي في المجتمع الحديث. بهدف تجاوز هذه التحديات، اقترح فريق البحث استخدام أدوات استدلال سببي لتعلم دالة المكافآت بشكل تلقائي من بيانات قائمة قد تكون مختلطة. وقد أثبت الباحثون نظرياً أن هذا النوع من دوال المكافآت يمكن أن يساهم بشكل كبير في تحسين كفاءة التعلم في بعض الحالات، وهو ما تم التحقق منه عبر تجارب عملية. في البداية، لم يكن لي مينغ شوان يعتقد أن هذه التعديلات الخوارزمية ستؤدي إلى تحسين كبير في تعقيد العينات، نظراً لأن دراسات سابقة قد أشارت إلى أن استخدام PBRS لا يؤثر دائماً على تعقيد العينات. ومع ذلك، بعد مراجعة معمقة لبعض الأوراق البحثية الحديثة، لاحظ لي مينغ شوان روابط بين بعض النتائج الوسيطة التي يمكن أن تدعم أطروحته. وقد أدت هذه الملاحظة إلى اكتشاف نظرية واضحة ومتناسقة، مما أثار إعجابه واستحسانه. الأوراق البحثية المتعلقة بهذا الموضوع، بما فيها الدراسة التي حملت عنوان "التشكيل التلقائي للمكافآت من البيانات المختلطة عبر الإنترنت" (Automatic Reward Shaping from Confounded Offline Data)، قد تم قبولها في المؤتمر الدولي للتعلم الآلي لعام 2025 (ICML). حاليًا، يعمل الفريق على تطبيق هذه النظرية على مشكلات أكبر وأكثر تعقيداً، مثل ألعاب الفيديو وأمثلة التحكم الروبوتي المستمرة. هذا العمل من شأنه أن يفتح الباب أمام تحسينات كبيرة في تصميم وتدريب الروبوتات والذكاء الاصطناعي، مما يجعله أكثر فعالية وكفاءة في بيئات متنوعة ومعقدة.