ريد원 2.0: إعادة التفكير في التدريب اللاحق للنماذج اللغوية الكبيرة المخصصة للمجالات في خدمات الشبكات الاجتماعية

الملخص
بصفتها وسيلة رئيسية للتواصل البشري وتبادل المعلومات، تفرض خدمات الشبكات الاجتماعية (SNS) تحديات فريدة على النماذج اللغوية الكبيرة (LLMs): وهي تختلف في طبيعة الأحمال، وتتغير بسرعة قواعد السلوك والعامية، كما تضم مجموعات نصية متعددة اللغات ومتعددة الثقافات، ما يؤدي إلى تغيرات حادة في التوزيع. يمكن للتدريب المُخصص المُراقب (SFT) تخصيص النماذج، لكنه غالبًا ما يُحدث توازنًا "متماوجًا" بين التحسن داخل التوزيع (in-distribution) ومقاومة النموذج خارج التوزيع (out-of-distribution)، خاصةً في النماذج الصغيرة. ولحل هذه التحديات، نقدّم نموذج RedOne 2.0، وهو نموذج لغوي كبير مُخصص لخدمات الشبكات الاجتماعية، تم تدريبه باستخدام منهجية ما بعد التدريب التدريجية المُولّدة بالذكاء الاصطناعي المُوجه بالتعلم بالتعزيز (RL-prioritized)، والتي تهدف إلى التكيف السريع والمستقر. يتكون هذا النموذج من ثلاث مراحل: (1) التعلّم الاستكشافي على مجموعات نصية مُختارة من الشبكات الاجتماعية، بهدف إقامة التوافق الأولي وتحديد العيوب المنظمة؛ (2) التدريب المُركّز، الذي يطبّق SFT بشكل انتقائي على الفجوات المُحددة، مع مزج نسبة صغيرة من البيانات العامة لتقليل نسيان المعرفة؛ (3) التعلّم المُحسّن، الذي يُعيد تطبيق التعلم بالتعزيز باستخدام إشارات مُركّزة على الشبكات الاجتماعية، بهدف تثبيت التحسينات وتحقيق توازن متناغم بين الأداء عبر المهام المختلفة. على مختلف المهام التي تغطي ثلاث فئات، يُظهر نموذجنا بحجم 4B تحسنًا متوسطًا قدره 2.41 مقارنةً بنموذج الأساس البالغ 7B الذي يُعد غير مُحسّن. علاوةً على ذلك، يحقق RedOne 2.0 رفعًا متوسطًا في الأداء قدره 8.74 مقارنةً بالنموذج الأساسي، وباستخدام أقل من نصف كمية البيانات المطلوبة في منهجية RedOne المُركّزة على SFT، ما يدل على كفاءة أعلى في استخدام البيانات واستقرار أفضل عند الأحجام الصغيرة. وبشكل عام، يُعد RedOne 2.0 قاعدة تنافسية وفعالة من حيث التكلفة لتطبيقات النماذج اللغوية الكبيرة المُخصصة في سياقات الشبكات الاجتماعية، حيث يُعزز القدرات دون التضحية بالمتانة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.