Command Palette
Search for a command to run...

الملخص
لقد ظهر التعلم القوي من خلال التغذية الراجعة البشرية (RLHF) كنمط قياسي لمحاذاة النماذج اللغوية الكبيرة (LLMs) مع تفضيلات البشر. ومع ذلك، تواجه الطرق القائمة على المكافآت والتي تعتمد على افتراض برادلي-تيري صعوبات في التقاط الطبيعة غير القابلة للانتقال والمتباينة للتفضيلات الواقعية. ولحل هذه المشكلة، أعادت دراسات حديثة صياغة مسألة المطابقة كلعبة ناش ثنائية اللاعب، مما أدى إلى ظهور مفهوم التعلم الناش من خلال التغذية الراجعة البشرية (NLHF). وعلى الرغم من أن هذه الرؤية قد ألهمت خوارزميات مثل INPO وONPO وEGPO، والتي تتمتع بضمانات نظرية وتجريبية قوية، إلا أنها ما زالت محدودة جوهريًا بتفاعلات ثنائية اللاعب، مما يخلق انحيازًا للاعب الواحد، ويؤدي إلى فشل في التقاط التعقيد الكامل لهياكل التفضيل الواقعية. في هذا العمل، نقدّم إطارًا جديدًا يُسمى تحسين التفضيلات الناش متعددة اللاعبين (MNPO)، الذي يعمّم مفهوم NLHF على السياقات متعددة اللاعبين. ويُصاغ هذا الإطار كلعبة مكونة من ( n ) لاعبين، حيث يتنافس كل سياسة ضد مجموعة من الخصوم، مع تطبيق تنظيم نحو نموذج مرجعي. ويُثبت هذا الإطار وجود توازنات ناش محددة بدقة في البيئات متعددة اللاعبين، كما يوسع مفهوم فجوة التكافؤ لقياس جودة التقريب. ونُظهر أن MNPO يرث ضمانات التوازن من الطرق ثنائية اللاعب، في حين يتيح ديناميكيات تنافسية أكثر غنىً وتحسينًا في تغطية هياكل التفضيل المتنوعة. ومن خلال تقييم تجريبي شامِل، نُظهر أن MNPO يتفوّق باستمرار على القواعد الأساسية لـ NLHF في معايير متابعة التعليمات، ويحقق جودة مطابقة متفوّقة في ظل ظروف مُعلّمين مختلفين وسيناريوهات تقييم تضم سياسات مختلطة. وبشكل عام، تُثبت هذه النتائج أن MNPO إطارًا مبدأً وقابلًا للتوسع لمحاذاة النماذج اللغوية الكبيرة مع تفضيلات بشرية معقدة وغير قابلة للانتقال. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/smiles724/MNPO.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.