HyperAIHyperAI
منذ 12 أيام

ReasonRank: تمكين ترتيب الفقرات بقدرات تفكير قوية

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou
ReasonRank: تمكين ترتيب الفقرات بقدرات تفكير قوية
الملخص

أظهرت نماذج اللغة الكبيرة (LLM) القائمة على الترتيب الشامل (listwise ranking) أداءً متفوقًا في العديد من مهام ترتيب الفقرات. ومع تطور نماذج التفكير الكبيرة (Large Reasoning Models)، أثبتت دراسات عديدة أن التفكير خطوة بخطوة أثناء مرحلة الاختبار يساعد في تحسين أداء الترتيب الشامل. ومع ذلك، نظرًا لقلة بيانات التدريب التي تتطلب تفكيرًا مكثفًا، فإن المُعدّلات الحالية تؤدي أداءً ضعيفًا في العديد من السيناريوهات المعقدة، وبقيت قدرة المُعدّلات التي تعتمد على التفكير المكثف على التحسين بشكل كبير. في هذا البحث، نقترح أولًا إطارًا تلقائيًا لتصنيع بيانات تدريب مكثفة بالتفكير، حيث يتم استخلاص الاستفسارات والنصوص من مجالات متنوعة، ويُستخدم نموذج DeepSeek-R1 لإنشاء علامات تدريب عالية الجودة. كما تم تصميم آلية تصفية ذاتية الاتساق لضمان جودة البيانات. ولتمكين مُعدّل الترتيب الشامل من القدرة القوية على التفكير، نقترح بعدها منهجًا تدريبيًا مزدوج المرحلة، يتضمن مرحلة تدريب مُوجَّه (SFT) باردة لتعلم أنماط التفكير، ومرحلة تعلم التدعيم (RL) لتعزيز القدرة على الترتيب بشكل أكبر. خلال مرحلة التعلم التدعيميّ، وبما أن طبيعة الترتيب الشامل تتطلب تقييمًا متعدد الأوجه، قمنا بتصميم مكافأة ترتيب متعددة الأوجه، وهي أكثر فعالية من المكافآت القائمة على مقاييس الترتيب. أظهرت التجارب الواسعة أن المُعدّل المُدرَّب القائم على التفكير المكثف، المُسمى ReasonRank، يتفوق بشكل كبير على النماذج الحالية، ويحقق أيضًا زمن استجابة أقل بكثير مقارنةً بـ Rank1، وهو مُعدّل من نوع النقطي (pointwise). وباستخدام تجارب إضافية، حقق ReasonRank أداءً من الدرجة الأولى (SOTA) بدرجة 40.6 على لوحة التصنيف BRIGHT\footnote{https://brightbenchmark.github.io/}. تتوفر الكودات الخاصة بنا على الرابط: https://github.com/8421BCD/ReasonRank.