منذ 3 ساعات

الملخص

رغم التقدم الكبير الذي أحرزته نماذج اللغة في السنوات الأخيرة، فإن استخدامها كـ Agents غالبًا ما يؤدي إلى تنفيذ إجراءات ليست فقط غير مثالية للحالة المعطاة، بل إنها ممنوعة صراحةً من قِبَل البيئة الخارجية. وعلى سبيل المثال، في مسابقة Kaggle GameArena للشطرنج الأخيرة، يُعزى 78% من هزائم نموذج Gemini-2.5-Flash إلى تحركات غير قانونية. وفي كثير من الأحيان، يلجأ الباحثون إلى كتابة "هياكل تحكم" (harnesses) يدويًا حول نماذج الـ LLM لمنع مثل هذه الإخفاقات. وفي هذه الورقة، نبيّن أن نموذج Gemini-2.5-Flash قادر على توليد مثل هذا الـ code harness تلقائيًا، وذلك باستخدام عدد محدود من دورات التحسين التكراري للكود، مدعومةً بتغذية راجعة مستقاة من البيئة (اللعبة). ويمنع الـ harness الناتج جميع التحركات غير القانونية في 145 لعبة مختلفة ضمن TextArena (سواء لألعاب لاعب واحد أو لاعبين)، مما يمكّن نموذج Gemini-2.5-Flash الأصغر حجمًا من التفوق على نماذج أكبر، مثل Gemini-2.5-Pro. وعند دفع تقنيتنا إلى حدودها القصوى، نتمكن من جعل Gemini-2.5-Flash يولّد السياسة (policy) بأكملها على شكل كود، مما يلغي الحاجة إلى استخدام الـ LLM في لحظة اتخاذ القرار. ويحقق كود السياسة الناتج متوسط مكافأة أعلى من نماذج Gemini-2.5-Pro وGPT-5.2-High في 16 لعبة من ألعاب لاعب واحد ضمن TextArena. وتُظهر نتائجنا أن استخدام نموذج أصغر لتوليد هيكل تحكم مخصص (code harness) أو سياسة كاملة يمكن أن يتفوق على نموذج أكبر حجمًا، مع تحقيق كفاءة تكلفة أعلى في الوقت نفسه.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار