Command Palette
Search for a command to run...
Heng Lin Zhongwen Xu

الملخص
نُدرِسُ سبب كون التفكير المُدمج بالأدوات (TIR) يُعزّز قدرات النماذج الكبيرة للغة (LLMs). وعلى الرغم من أن النماذج الكبيرة للغة التي تُدمج بأدوات مثل مفسّرات الشفرة البرمجية (Python) تُظهر إمكانات كبيرة، إلا أن نظرية منهجية تفسر سبب فعالية هذا النموذج ما زالت مفقودة. تقدّم هذه الدراسة أول إثبات رياضي رسمي يُبيّن أن TIR يُوسّع جوهريًا قدرات النموذج الكبيرة للغة. ونُظهر أن الأدوات تُمكّن من توسيع صارم لمساحة الدعم التجريبي والقابلية للتطبيق لدى النموذج، ما يُكسر الحد الأقصى للقدرة الخاص بالنماذج النصية البحتة من خلال فتح آليات حل المشكلات التي كانت غير ممكنة أو مُرهقة جدًا من حيث الطول والتعقيد في النصوص فقط. ولتوجيه سلوك النموذج دون المساس بثبات التدريب وأدائه، نقدّم أيضًا خوارزمية جديدة تُسمى "تحسين السياسة بناءً على الميزة" (ASPO)، والتي تُعدّل مباشرة دالة الميزة لقيادة سلوك السياسة. قمنا بإجراء تجارب شاملة على معايير رياضية صعبة، مستخدمين مفسّر الشفرة البرمجية (Python) كأداة خارجية. أظهرت النتائج أن النموذج المُدمج بالأدوات يتفوّق بوضوح على نموذجه البديل النصي الوحيد من حيث معيار "pass@k". وبشكل حاسم، لا يقتصر هذا التفوّق على المشكلات التي تتطلب حسابات مكثفة، بل يمتد إلى المشكلات التي تتطلب تفكيرًا مُجرّدًا عميقًا. وتمكّنا من تحديد الأنماط المعرفية المُنبثقة التي تُبيّن كيف يتعلم النموذج التفكير باستخدام الأدوات. وأخيرًا، أبلغنا عن تحسّن في سلوك استخدام الأدوات، من خلال استدعاء الشفرة مبكرًا، وزيادة كبيرة في عدد الجولات التفاعلية باستخدام ASPO. وبشكل عام، تقدّم دراستنا أول تفسير منهجي لنجاح TIR، وتحول التركيز من مجرد حقيقة أن الأدوات تعمل، إلى سبب وكيفية تمكينها من تفعيل تفكير أكثر قوة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.