HyperAIHyperAI

Command Palette

Search for a command to run...

تدريب مساعد مفيد وآمن باستخدام التعلم المعزز من التغذية الراجعة البشرية

Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen Nova DasSarma et al

الملخص

نُطبّق نمذجة التفضيلات والتعلم القوي المستند إلى التغذية الراجعة البشرية (RLHF) لضبط نماذج اللغة بحيث تؤدي دور مساعدات مفيدة وغير ضارة. ونجد أن هذا التدريب المُوجّه يُحسّن الأداء في معظم تقييمات معالجة اللغة الطبيعية، وهو متوافق تمامًا مع التدريب على مهارات متخصصة مثل كتابة كود بايثون والملخصات. ونستكشف نموذج تدريب مُتكرر على الإنترنت، حيث يتم تحديث نماذج التفضيلات والسياسات القائمة على التعلم القوي وفق جدول أسبوعي باستخدام بيانات تغذية راجعة بشرية جديدة، مما يُمكّن من تحسين بياناتنا ونماذجنا بكفاءة. وأخيرًا، نستعرض موثوقية تدريب RLHF، ونُحدد علاقة تقريبًا خطية بين مكافأة التعلم القوي وجذر التربيع للتباعد كولبوموغر-ليبلر (KL divergence) بين السياسة وحالتها الابتدائية. إلى جانب النتائج الرئيسية، نُجري تحليلات جانبية حول التكييف (calibration)، والمقاييس التنافسية، واستخدام كشف البيانات الخارجة عن النطاق (OOD detection)، ونقارن نماذجنا بالكتّاب البشريين، ونُقدّم أمثلة من نماذجنا باستخدام أوامر (prompts) ظهرت في الدراسات المتعلقة حديثًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تدريب مساعد مفيد وآمن باستخدام التعلم المعزز من التغذية الراجعة البشرية | مستندات | HyperAI