HyperAIHyperAI

Command Palette

Search for a command to run...

DuPO: تمكين التحقق الذاتي الموثوق للنماذج اللغوية الكبيرة من خلال التحسين الثنائي التفضيل

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

الملخص

نقدّم "DuPO"، وهي إطار عمل مبني على التعلّم الثنائي لتحسين التفضيلات، يُولِّد ملاحظات دون الحاجة إلى تسميات (annotation-free feedback) من خلال مبدأ التكافؤ العام. يعالج DuPO قَصَرَيْن رئيسيين: أولهما اعتماد التعلّم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) على التسميات المكلفة، وقيود تطبيقه على المهام القابلة للتحقق فقط؛ والثاني هو قيود التعلّم الثنائي التقليدي التي تقتصر على أزواج مهام متبادلة صارمة (مثل الترجمة والترجمة العكسية). وبشكل محدد، يقوم DuPO بتحليل مدخلات المهمة الأساسية إلى مكوّنين: معروف وغير معروف، ثم يُنشئ مهمة ثنائية لإعادة بناء الجزء غير المعروف باستخدام مخرجات المهمة الأساسية والمعلومات المعروفة (مثل عكس حلول المسائل الرياضية للحصول على المتغيرات المخفية)، مما يوسع نطاق التطبيق ليشمل المهام غير القابلة للعكس. ويعمل جودة هذه إعادة البناء كمكافأة ذاتية التدريب (self-supervised reward) لتحسين المهمة الأساسية، ويعمل بشكل تكاملي مع قدرة النماذج اللغوية الكبيرة (LLMs) على توليد كلا المهمتين عبر نموذج واحد. من الناحية التجريبية، حقق DuPO مكاسب كبيرة عبر مهام متنوعة: حيث زاد متوسط جودة الترجمة بنسبة 2.13 نقطة في مؤشر COMET على 756 اتجاهًا، ورفع دقة التفكير الرياضي بمتوسط 6.4 نقطة على ثلاث معايير صعبة، كما عزز الأداء بنسبة 9.3 نقطة كمُعدِّل إعادة ترتيب أثناء الاستدلال (مما يُعدّ تبادلًا بين الحوسبة والدقة). تُبرز هذه النتائج أن DuPO تمثل منهجًا قابلاً للتوسع، عامًا، وبدون حاجة إلى تسميات، لتحسين النماذج اللغوية الكبيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DuPO: تمكين التحقق الذاتي الموثوق للنماذج اللغوية الكبيرة من خلال التحسين الثنائي التفضيل | مستندات | HyperAI