HyperAIHyperAI

Command Palette

Search for a command to run...

ReasonRank: تمكين ترتيب الفقرات بقدرات تفكير قوية

Wenhan Liu Xinyu Ma Weiwei Sun Yutao Zhu Yuchen Li Dawei Yin Zhicheng Dou

الملخص

أظهرت نماذج اللغة الكبيرة (LLM) القائمة على الترتيب الشامل (listwise ranking) أداءً متفوقًا في العديد من مهام ترتيب الفقرات. ومع تطور نماذج التفكير الكبيرة (Large Reasoning Models)، أثبتت دراسات عديدة أن التفكير خطوة بخطوة أثناء مرحلة الاختبار يساعد في تحسين أداء الترتيب الشامل. ومع ذلك، نظرًا لقلة بيانات التدريب التي تتطلب تفكيرًا مكثفًا، فإن المُعدّلات الحالية تؤدي أداءً ضعيفًا في العديد من السيناريوهات المعقدة، وبقيت قدرة المُعدّلات التي تعتمد على التفكير المكثف على التحسين بشكل كبير. في هذا البحث، نقترح أولًا إطارًا تلقائيًا لتصنيع بيانات تدريب مكثفة بالتفكير، حيث يتم استخلاص الاستفسارات والنصوص من مجالات متنوعة، ويُستخدم نموذج DeepSeek-R1 لإنشاء علامات تدريب عالية الجودة. كما تم تصميم آلية تصفية ذاتية الاتساق لضمان جودة البيانات. ولتمكين مُعدّل الترتيب الشامل من القدرة القوية على التفكير، نقترح بعدها منهجًا تدريبيًا مزدوج المرحلة، يتضمن مرحلة تدريب مُوجَّه (SFT) باردة لتعلم أنماط التفكير، ومرحلة تعلم التدعيم (RL) لتعزيز القدرة على الترتيب بشكل أكبر. خلال مرحلة التعلم التدعيميّ، وبما أن طبيعة الترتيب الشامل تتطلب تقييمًا متعدد الأوجه، قمنا بتصميم مكافأة ترتيب متعددة الأوجه، وهي أكثر فعالية من المكافآت القائمة على مقاييس الترتيب. أظهرت التجارب الواسعة أن المُعدّل المُدرَّب القائم على التفكير المكثف، المُسمى ReasonRank، يتفوق بشكل كبير على النماذج الحالية، ويحقق أيضًا زمن استجابة أقل بكثير مقارنةً بـ Rank1، وهو مُعدّل من نوع النقطي (pointwise). وباستخدام تجارب إضافية، حقق ReasonRank أداءً من الدرجة الأولى (SOTA) بدرجة 40.6 على لوحة التصنيف BRIGHT\footnote{https://brightbenchmark.github.io/}. تتوفر الكودات الخاصة بنا على الرابط: https://github.com/8421BCD/ReasonRank.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ReasonRank: تمكين ترتيب الفقرات بقدرات تفكير قوية | مستندات | HyperAI