منذ 17 أيام

تدريب النماذج اللغوية على اتباع التعليمات مع التغذية الراجعة البشرية

Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

عرض تفاصيل الورقة البحثية

تدريب النماذج اللغوية على اتباع التعليمات مع التغذية الراجعة البشرية

الملخص

إن تكبير نماذج اللغة لا يجعلها بالضرورة أفضل في متابعة نية المستخدم. على سبيل المثال، يمكن لنموذجات اللغة الكبيرة أن تولد إخراجًا غير صحيح أو سام أو ببساطة غير مفيد للمستخدم. بمعنى آخر، هذه النماذج ليست متوافقة مع مستخدميها. في هذه الورقة، نُظهر طريقًا لتوافق نماذج اللغة مع نية المستخدم على مجموعة واسعة من المهام من خلال التدريب المخصص باستخدام التغذية الراجعة البشرية. نبدأ بمجموعة من التعليمات المكتوبة من قبل المُقيّمين، بالإضافة إلى التعليمات التي تم إرسالها عبر واجهة برمجة تطبيقات OpenAI، ونجمع مجموعة بيانات تتضمن أمثلة توضيحية من قبل المُقيّمين للسلوك المرغوب في النموذج، والتي نستخدمها لتدريب نموذج GPT-3 باستخدام التعلم المُشرف. ثم نجمع مجموعة بيانات من التصنيفات الخاصة بإخراجات النموذج، والتي نستخدمها لتحسين هذا النموذج المُدرَّب مسبقًا باستخدام التعلم التكراري المستند إلى التغذية الراجعة البشرية. نُسمّي النماذج الناتجة InstructGPT. في تقييمات بشرية على توزيع التعليمات الخاص بنا، تُفضَّل إخراجات نموذج InstructGPT الذي يحتوي على 1.3 مليار معلمة على إخراجات نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، رغم أن عدد المعلمات في InstructGPT أقل بـ 100 مرة. علاوة على ذلك، تُظهر نماذج InstructGPT تحسنًا في الدقة والصدق، وتقليلًا في إنتاج المحتوى السام، مع وجود انخفاض ضئيل جدًا في الأداء على مجموعات بيانات اللغة الطبيعية العامة. وعلى الرغم من أن InstructGPT ما زال يرتكب أخطاء بسيطة، فإن نتائجنا تُظهر أن التدريب المخصص باستخدام التغذية الراجعة البشرية يُعد اتجاهًا واعدًا لتوافق نماذج اللغة مع نية الإنسان.