HyperAIHyperAI
منذ شهر واحد

تدريب مساعد مفيد وآمن باستخدام التعلم المعزز من التغذية الراجعة البشرية

Yuntao Bai, Andy Jones, Kamal Ndousse, Amanda Askell, Anna Chen, Nova DasSarma, et al
تدريب مساعد مفيد وآمن باستخدام التعلم المعزز من التغذية الراجعة البشرية
الملخص

نُطبّق نمذجة التفضيلات والتعلم القوي المستند إلى التغذية الراجعة البشرية (RLHF) لضبط نماذج اللغة بحيث تؤدي دور مساعدات مفيدة وغير ضارة. ونجد أن هذا التدريب المُوجّه يُحسّن الأداء في معظم تقييمات معالجة اللغة الطبيعية، وهو متوافق تمامًا مع التدريب على مهارات متخصصة مثل كتابة كود بايثون والملخصات. ونستكشف نموذج تدريب مُتكرر على الإنترنت، حيث يتم تحديث نماذج التفضيلات والسياسات القائمة على التعلم القوي وفق جدول أسبوعي باستخدام بيانات تغذية راجعة بشرية جديدة، مما يُمكّن من تحسين بياناتنا ونماذجنا بكفاءة. وأخيرًا، نستعرض موثوقية تدريب RLHF، ونُحدد علاقة تقريبًا خطية بين مكافأة التعلم القوي وجذر التربيع للتباعد كولبوموغر-ليبلر (KL divergence) بين السياسة وحالتها الابتدائية. إلى جانب النتائج الرئيسية، نُجري تحليلات جانبية حول التكييف (calibration)، والمقاييس التنافسية، واستخدام كشف البيانات الخارجة عن النطاق (OOD detection)، ونقارن نماذجنا بالكتّاب البشريين، ونُقدّم أمثلة من نماذجنا باستخدام أوامر (prompts) ظهرت في الدراسات المتعلقة حديثًا.