Command Palette
Search for a command to run...
TreePO: سد الفجوة بين التحسين السياسي والفعالية وكفاءة الاستنتاج باستخدام نمذجة قائمة على الشجرة الحدسية

الملخص
أحدث التطورات في محاذاة نماذج اللغة الكبيرة باستخدام التعلم المعزز قد حققت تقدماً ملحوظاً في حل المشكلات الاستدلالية المعقدة، لكنها جاءت على حساب التكاليف المرتفعة الناتجة عن عمليات التمرير الحركي (on-policy rollouts) وامتداد الاستكشاف المحدود لمسارات استدلالية متنوعة. في هذه الدراسة، نقدم نموذج TreePO، الذي يعتمد على خوارزمية تمرير ذاتي التوجيه، ويُعد عملية إنشاء التسلسل عملية بحثية ذات هيكل شجري. يتكون TreePO من سياسة عينة شجرية ديناميكية وفك تشفير بأطوال ثابتة للقطع، ويستفيد من عدم اليقين المحلي لضمان إنشاء فروع إضافية. وباستخدام تقليل التكلفة الحسابية عبر الأسبقية المشتركة وحذف المسارات ذات القيمة المنخفضة مبكرًا، يقلل TreePO بشكل جوهري من العبء الحسابي لكل تحديث، مع الحفاظ على تنوع الاستكشاف أو حتى تحسينه.تشمل المساهمات الأساسية ما يلي:(1) خوارزمية عينة حسب القطع (segment-wise sampling)، التي تخفف من عبء ذاكرة التخزين المؤقت للقيم والوظائف (KV cache) من خلال استخدام قطع متصلة، وتنشئ فروعًا جديدة مع آلية إيقاف مبكر؛(2) تقدير ميزة مبني على الشجرة على مستوى القطع، يأخذ بعين الاعتبار كلاً من خوارزمية التحسين التقريبي للسياسة (proximal policy optimization) على المستوى العالمي والمحلي؛(3) تحليل فعالية استراتيجية التفرع الديناميكي المُحفَّزة بالاحتمالات والجودة، واستراتيجية الاسترجاع (fallback) المقابلة.تم التحقق تجريبيًا من فعالية TreePO على مجموعة من معايير الاستدلال، حيث أظهر تقليلًا في استهلاك ساعات GPU تتراوح بين 22% و43% مقارنة بتصميمات العينة التقليدية للنماذج المدربة، وفي الوقت نفسه أظهر تقليلًا يصل إلى 40% في مستوى المسارات (trajectory-level) و35% على مستوى الرموز (token-level) من حيث الحسابات المطلوبة للعينة في النماذج الحالية.بينما يوفر TreePO فائدة مجانية في كفاءة الاستدلال، فإنه يُظهر طريقًا عمليًا لتوسيع مرحلة ما بعد التدريب القائمة على التعلم المعزز باستخدام عدد أقل من العينات وحاجة أقل للحسابات.يمكن زيارة الصفحة الرئيسية للمشروع عبر الرابط: https://m-a-p.ai/TreePO.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.