منذ شهر واحد

الاستدلال التغيري للنماذج اللغوية

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

الملخص

نقدّم إطارًا استدلاليًا تغيريًا للنماذج اللغوية، يُعامل آثار التفكير كمتغيرات خفية ويُحسّنها من خلال الاستدلال التغيري. بدءًا من حدّ التقدير الأدنى للإثبات (ELBO)، نوسعه إلى هدف متعدد الآثار لتحقيق حدود أضيق، ونقترح صيغة مبنية على التباين الأمامي (forward-KL) تُثبّت تدريب التوزيع الاحتمالي التغيري. ونُظهر أيضًا أن تدريب الاستبعاد العشوائي (rejection sampling fine-tuning) والتعلم بالتعويض الثنائي (binary-reward RL)، بما في ذلك خوارزمية GRPO، يمكن تفسيرها على أنها أهداف محلية مبنية على التباين الأمامي، حيث تظهر بشكل طبيعي وزنًا ضمنيًا يعتمد على دقة النموذج، مما يكشف عن انحياز سابق لم يُلاحظ مسبقًا نحو الأسئلة الأسهل. وقد قمنا بتوثيق طريقة عملنا تجريبيًا على عائلتي النماذج Qwen 2.5 وQwen 3، عبر مجموعة واسعة من مهام الاستدلال. وبشكل عام، يقدّم عملنا منظورًا احتماليًا منهجيًا يوحّد الاستدلال التغيري مع الأساليب المبنية على التعلم بالتعويض (RL)، ويُنتج أهدافًا مستقرة لتحسين قدرة النماذج اللغوية على التفكير. يمكن الاطلاع على الكود الخاص بنا عبر الرابط التالي: https://github.com/sail-sg/variational-reasoning.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

الاستدلال التغيري للنماذج اللغوية

Xiangxin Zhou Zichen Liu Haonan Wang Chao Du Min Lin Chongxuan Li Liang Wang Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters