تحسين التفضيل المباشر
تحسين التفضيل المباشر (DPO) عبارة عن استراتيجية ضبط دقيقة لمواءمة نماذج اللغة الكبيرة (LLMs) مع التفضيلات البشرية. تم اقتراحه من قبل فريق بحثي من جامعة ستانفورد وCZ Biohub في عام 2023 وتم نشره في الورقة البحثيةتحسين التفضيل المباشر: نموذج اللغة الخاص بك هو في الواقع نموذج مكافأة》، نُشر في NeurIPS 2023.
الفكرة الأساسية لـ DPO هي التحسين المباشر على بيانات التفضيلات البشرية دون تدريب نموذج مكافأة منفصل أو استخدام التعلم التعزيزي. ويقوم بضبط نموذج اللغة باستخدام بيانات التفضيل الثنائية، مما يجعل النموذج أكثر ميلاً إلى توليد الإجابات التي يفضلها البشر. بالمقارنة مع التعلم التعزيزي التقليدي مع التغذية الراجعة البشرية (RLHF)، فإن DPO أبسط وأكثر استقرارًا وأقل تكلفة حسابيًا. إنه يتجنب عملية تركيب نموذج المكافأة من خلال دمج خسارة التفضيل مباشرة في السياسة، مع استخدام قيد التباعد KL لضمان عدم انحراف النموذج قيد التدريب عن النموذج الأصلي.
تم اقتراح DPO لمعالجة بعض القيود التي تواجه RLHF، مثل التكلفة الحسابية العالية، ونمذجة المكافأة المعقدة، وعدم الاستقرار أثناء التدريب. تظهر التجارب أن DPO يتفوق على RLHF المستند إلى PPO في التحكم في المشاعر الناتجة، وهو مماثل له أو أفضل منه في جودة الاستجابة للحوار الملخص والمنعطف الواحد. بالإضافة إلى ذلك، يعمل DPO على تحسين أداء النموذج بشكل أكبر من خلال تقديم قيمة إزاحة للتعامل مع أزواج التفضيلات ذات نقاط القوة التفضيلية المختلفة.