HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 13 أيام

تحسين السياسة الموجه بالاستبدال للنماذج الكبيرة لغة الت(diffusion)

تحسين السياسة الموجه بالاستبدال للنماذج الكبيرة لغة الت(diffusion)

الملخص

تُعد نماذج اللغة الكبيرة القائمة على الت(diffusion) المُقنَّعة (dLLMs) بديلاً واعداً للنماذج الكبيرة القائمة على التوليد التسلسلي (autoregressive LLMs)، حيث تُقدّم أداءً تنافسياً مع دعم قدرات توليد فريدة مثل "استكمال الصور" (inpainting). نستعرض كيف يمكن لخاصية استكمال الصور أن تُسهم في تطوير خوارزميات التعلم بالتحفيز (RL) الخاصة بالنماذج dLLMs. يواجه تكامل نماذج LLM مع التعلم بالتحفيز تحدياً في التوسع (exploration): فعندما تفشل النماذج في اكتشاف الحلول الصحيحة، تُصبح إشارات المكافأة نادرة، ويُهدر العينات. ورغم أن هذه الفعالية المنخفضة تؤثر على نماذج LLM بشكل عام، فإن نماذج dLLMs تُقدّم فرصة مميزة: فهي تمتلك قدرة استكمال الصور التي يمكنها توجيه عملية التوسع. نُقدّم إطاراً جديداً يُسمى IGPO (تحسين السياسة المُوجَّه بـ"استكمال الصور")، وهو إطار تعلّم بالتحفيز يُضَمّن بشكل استراتيجي آثاراً جزئية من التفكير الصحيح (ground-truth reasoning traces) أثناء أخذ العينات في الوقت الفعلي. بخلاف تزويد النموذج بحل كامل، فإن خاصية استكمال الصور تُوجّه التوسع نحو مساحات مسارات واعدة، مع الحفاظ على التفكير المُولَّد ذاتياً من النموذج، ما يُمكّن من تجسير الفجوة بين التدريب المُراقب (supervised fine-tuning) والتعلم بالتحفيز. ونُطبّق IGPO على طرق تحسين مبنية على المجموعات، مثل GRPO، حيث تؤدي فشلات التوسع إلى امتلاك مزايا صفرية وGradient معدومة. يُعيد IGPO استرجاع مُدرجات مفيدة (gradients) مع تحسين كفاءة العينات. كما نُقترح تدريباً مُراقباً على آثار موجزة مُعاد صياغتها اصطناعياً، والتي تتماشى بشكل أفضل مع أنماط التوليد في نماذج dLLMs. وباستخدام تقنيات إضافية مثل تصفية الانتروبيا (entropy-based filtering)، تُحقّق وصفة التدريب المُقترحة مكاسب كبيرة عبر ثلاث معايير رياضية—GSM8K وMath500 وAMC—مُحقّقة نتائج قياسية جديدة لنموذج dLLM الكامل الانتباه (full-attention masked dLLMs).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين السياسة الموجه بالاستبدال للنماذج الكبيرة لغة الت(diffusion) | الأوراق البحثية | HyperAI