OpenChat: تقدم نماذج اللغة المفتوحة المصدر باستخدام بيانات ذات جودة مختلطة

في الوقت الحاضر، ظهرت نماذج اللغة الكبيرة المفتوحة المصدر مثل LLaMA. وقد تم مؤخرًا دمج عمليات التحسين المراقب (SFT) والتحسين القائم على التعلم التقويمي (RLFT) لتوحيد هذه النماذج مع الأهداف البشرية. ومع ذلك، فإن منهجيات SFT تتعامل مع جميع بيانات التدريب، بغض النظر عن جودتها المختلطة، بشكل متساوٍ، في حين أن منهجيات RLFT تتطلب بيانات تفضيل ثنائية أو مرتبة عالية الجودة. في هذه الدراسة، نقدّم إطارًا جديدًا يُسمى OpenChat لتعزيز نماذج اللغة المفتوحة المصدر باستخدام بيانات ذات جودة مختلطة. وبشكل خاص، نأخذ بعين الاعتبار بيانات التدريب العامة لـ SFT، التي تتكون من كمية صغيرة من البيانات الخبيرة المختلطة بنسب كبيرة من البيانات غير المثلى، دون أي علامات تفضيل. ونُقدّم منهجية C-RLFT (التحسين التقويمي المشروط)، التي تُعامل المصادر المختلفة للبيانات كعلامات مكافأة خشنة، وتنمي سياسة مُشَرَّطة حسب الفئة، بهدف الاستفادة من معلومات الجودة المتكاملة بين المصادر. ومن المثير للاهتمام أن السياسة المثلى في C-RLFT يمكن حلها بسهولة عبر تعلم مراقب بدون تعلم تقويمي في مرحلة واحدة، وهو ما يُعد خفيفًا ويفاد من التكاليف المرتبطة بتسمية التفضيلات البشرية. من خلال تجارب واسعة على ثلاث معايير قياسية، حقق نموذج OpenChat-13B المُحسَّن باستخدام C-RLFT أعلى أداء متوسط بين جميع نماذج اللغة المفتوحة المصدر بحجم 13 مليار. علاوةً على ذلك، استخدمنا AGIEval للتحقق من أداء التعميم للنموذج، حيث تفوق فقط OpenChat-13B على النموذج الأساسي. وأخيرًا، أجرينا سلسلة من التحليلات للكشف عن كفاءة ومتانة إطار OpenChat. إن كودنا وبياناتنا ونماذجنا متاحة للجميع عبر الرابطين: https://github.com/imoneoi/openchat و https://huggingface.co/openchat.