تدريب النماذج اللغوية على اتباع التعليمات مع التغذية الراجعة البشرية

إن تكبير نماذج اللغة لا يجعلها بالضرورة أفضل في متابعة نية المستخدم. على سبيل المثال، يمكن لنموذجات اللغة الكبيرة أن تولد إخراجًا غير صحيح أو سام أو ببساطة غير مفيد للمستخدم. بمعنى آخر، هذه النماذج ليست متوافقة مع مستخدميها. في هذه الورقة، نُظهر طريقًا لتوافق نماذج اللغة مع نية المستخدم على مجموعة واسعة من المهام من خلال التدريب المخصص باستخدام التغذية الراجعة البشرية. نبدأ بمجموعة من التعليمات المكتوبة من قبل المُقيّمين، بالإضافة إلى التعليمات التي تم إرسالها عبر واجهة برمجة تطبيقات OpenAI، ونجمع مجموعة بيانات تتضمن أمثلة توضيحية من قبل المُقيّمين للسلوك المرغوب في النموذج، والتي نستخدمها لتدريب نموذج GPT-3 باستخدام التعلم المُشرف. ثم نجمع مجموعة بيانات من التصنيفات الخاصة بإخراجات النموذج، والتي نستخدمها لتحسين هذا النموذج المُدرَّب مسبقًا باستخدام التعلم التكراري المستند إلى التغذية الراجعة البشرية. نُسمّي النماذج الناتجة InstructGPT. في تقييمات بشرية على توزيع التعليمات الخاص بنا، تُفضَّل إخراجات نموذج InstructGPT الذي يحتوي على 1.3 مليار معلمة على إخراجات نموذج GPT-3 الذي يحتوي على 175 مليار معلمة، رغم أن عدد المعلمات في InstructGPT أقل بـ 100 مرة. علاوة على ذلك، تُظهر نماذج InstructGPT تحسنًا في الدقة والصدق، وتقليلًا في إنتاج المحتوى السام، مع وجود انخفاض ضئيل جدًا في الأداء على مجموعات بيانات اللغة الطبيعية العامة. وعلى الرغم من أن InstructGPT ما زال يرتكب أخطاء بسيطة، فإن نتائجنا تُظهر أن التدريب المخصص باستخدام التغذية الراجعة البشرية يُعد اتجاهًا واعدًا لتوافق نماذج اللغة مع نية الإنسان.