Command Palette
Search for a command to run...
Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

الملخص
نقدّم إطارًا استدلاليًا تغيريًا للنماذج اللغوية، يُعامل آثار التفكير كمتغيرات خفية ويُحسّنها من خلال الاستدلال التغيري. بدءًا من حدّ التقدير الأدنى للإثبات (ELBO)، نوسعه إلى هدف متعدد الآثار لتحقيق حدود أضيق، ونقترح صيغة مبنية على التباين الأمامي (forward-KL) تُثبّت تدريب التوزيع الاحتمالي التغيري. ونُظهر أيضًا أن تدريب الاستبعاد العشوائي (rejection sampling fine-tuning) والتعلم بالتعويض الثنائي (binary-reward RL)، بما في ذلك خوارزمية GRPO، يمكن تفسيرها على أنها أهداف محلية مبنية على التباين الأمامي، حيث تظهر بشكل طبيعي وزنًا ضمنيًا يعتمد على دقة النموذج، مما يكشف عن انحياز سابق لم يُلاحظ مسبقًا نحو الأسئلة الأسهل. وقد قمنا بتوثيق طريقة عملنا تجريبيًا على عائلتي النماذج Qwen 2.5 وQwen 3، عبر مجموعة واسعة من مهام الاستدلال. وبشكل عام، يقدّم عملنا منظورًا احتماليًا منهجيًا يوحّد الاستدلال التغيري مع الأساليب المبنية على التعلم بالتعويض (RL)، ويُنتج أهدافًا مستقرة لتحسين قدرة النماذج اللغوية على التفكير. يمكن الاطلاع على الكود الخاص بنا عبر الرابط التالي: https://github.com/sail-sg/variational-reasoning.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.