منذ 3 أيام

DuPO: تمكين التحقق الذاتي الموثوق للنماذج اللغوية الكبيرة من خلال التحسين الثنائي التفضيل

Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

الملخص

نقدّم "DuPO"، وهي إطار عمل مبني على التعلّم الثنائي لتحسين التفضيلات، يُولِّد ملاحظات دون الحاجة إلى تسميات (annotation-free feedback) من خلال مبدأ التكافؤ العام. يعالج DuPO قَصَرَيْن رئيسيين: أولهما اعتماد التعلّم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) على التسميات المكلفة، وقيود تطبيقه على المهام القابلة للتحقق فقط؛ والثاني هو قيود التعلّم الثنائي التقليدي التي تقتصر على أزواج مهام متبادلة صارمة (مثل الترجمة والترجمة العكسية). وبشكل محدد، يقوم DuPO بتحليل مدخلات المهمة الأساسية إلى مكوّنين: معروف وغير معروف، ثم يُنشئ مهمة ثنائية لإعادة بناء الجزء غير المعروف باستخدام مخرجات المهمة الأساسية والمعلومات المعروفة (مثل عكس حلول المسائل الرياضية للحصول على المتغيرات المخفية)، مما يوسع نطاق التطبيق ليشمل المهام غير القابلة للعكس. ويعمل جودة هذه إعادة البناء كمكافأة ذاتية التدريب (self-supervised reward) لتحسين المهمة الأساسية، ويعمل بشكل تكاملي مع قدرة النماذج اللغوية الكبيرة (LLMs) على توليد كلا المهمتين عبر نموذج واحد. من الناحية التجريبية، حقق DuPO مكاسب كبيرة عبر مهام متنوعة: حيث زاد متوسط جودة الترجمة بنسبة 2.13 نقطة في مؤشر COMET على 756 اتجاهًا، ورفع دقة التفكير الرياضي بمتوسط 6.4 نقطة على ثلاث معايير صعبة، كما عزز الأداء بنسبة 9.3 نقطة كمُعدِّل إعادة ترتيب أثناء الاستدلال (مما يُعدّ تبادلًا بين الحوسبة والدقة). تُبرز هذه النتائج أن DuPO تمثل منهجًا قابلاً للتوسع، عامًا، وبدون حاجة إلى تسميات، لتحسين النماذج اللغوية الكبيرة.