Command Palette
Search for a command to run...
التعاون بين الوكلاء المتعددين من خلال الاستنتاج التعاوني داخل السياق
التعاون بين الوكلاء المتعددين من خلال الاستنتاج التعاوني داخل السياق
Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans
الملخص
يظل تحقيق التعاون بين الوكالات ذات المصالح الذاتية تحديًا جوهريًا في التعلم التدريبي متعدد الوكالات. أظهرت الدراسات الحديثة أن التعاون المتبادل يمكن أن يُحفَّز بين وكالات "واعية بالتعلم" التي تأخذ بعين الاعتبار وتشكل ديناميات التعلم الخاصة باللاعبين الآخرين. ومع ذلك، تعتمد النماذج الحالية غالبًا على افتراضات مُحددة مسبقًا، وغالبًا ما تكون غير متسقة، بشأن قواعد تعلم اللاعبين الآخرين، أو تفرض فصلًا صارمًا بين "الوكلاء البسطاء" الذين يحدّثون على مقاييس زمنية سريعة و"الوكلاء الميتا-الواعين" الذين يراقبون هذه التحديثات. في هذا العمل، نُظهر أن قدرة النماذج التسلسلية على التعلم داخل السياق (in-context learning) تتيح وعيًا بديناميكيات تعلم اللاعبين الآخرين دون الحاجة إلى افتراضات مُحددة مسبقًا أو فصل صريح بين المقاييس الزمنية. نثبت أن تدريب وكالات نماذج تسلسلية مقابل توزيع متنوع من اللاعبين الآخرين يؤدي بشكل طبيعي إلى تطوير استراتيجيات استجابة مثلى داخل السياق، والتي تعمل فعليًا كخوارزميات تعلم على مقاييس زمنية سريعة داخل الجلسة الواحدة. ونجد أن الميكانية التعاونية التي تم تحديدها في الدراسات السابقة — حيث يُحفّز التعرض للابتزاز التبادلي على تشكيل متبادل — تظهر بشكل طبيعي في هذا السياق: إذ يجعل التكيف داخل السياق الوكلاء عرضة للابتزاز، ويؤدي الضغط المتبادل الناتج عن محاولة تشكيل ديناميكيات التعلم داخل السياق لدى الطرف المقابل إلى تطوير سلوك تعاوني. تشير نتائجنا إلى أن الجمع بين التعلم التدريبي اللامركزي القياسي على النماذج التسلسلية مع تنوع اللاعبين الآخرين يُمكّن من مسار قابل للتوسع لتعلم السلوك التعاوني.