HyperAIHyperAI

Command Palette

Search for a command to run...

AutoHarness: تحسين وكلاء LLM من خلال تركيب إطار عمل كودي تلقائيًا

Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy

الملخص

رغم التقدم الكبير الذي أحرزته نماذج اللغة في السنوات الأخيرة، فإن استخدامها كـ Agents غالبًا ما يؤدي إلى تنفيذ إجراءات ليست فقط غير مثالية للحالة المعطاة، بل إنها ممنوعة صراحةً من قِبَل البيئة الخارجية. وعلى سبيل المثال، في مسابقة Kaggle GameArena للشطرنج الأخيرة، يُعزى 78% من هزائم نموذج Gemini-2.5-Flash إلى تحركات غير قانونية. وفي كثير من الأحيان، يلجأ الباحثون إلى كتابة "هياكل تحكم" (harnesses) يدويًا حول نماذج الـ LLM لمنع مثل هذه الإخفاقات. وفي هذه الورقة، نبيّن أن نموذج Gemini-2.5-Flash قادر على توليد مثل هذا الـ code harness تلقائيًا، وذلك باستخدام عدد محدود من دورات التحسين التكراري للكود، مدعومةً بتغذية راجعة مستقاة من البيئة (اللعبة). ويمنع الـ harness الناتج جميع التحركات غير القانونية في 145 لعبة مختلفة ضمن TextArena (سواء لألعاب لاعب واحد أو لاعبين)، مما يمكّن نموذج Gemini-2.5-Flash الأصغر حجمًا من التفوق على نماذج أكبر، مثل Gemini-2.5-Pro. وعند دفع تقنيتنا إلى حدودها القصوى، نتمكن من جعل Gemini-2.5-Flash يولّد السياسة (policy) بأكملها على شكل كود، مما يلغي الحاجة إلى استخدام الـ LLM في لحظة اتخاذ القرار. ويحقق كود السياسة الناتج متوسط مكافأة أعلى من نماذج Gemini-2.5-Pro وGPT-5.2-High في 16 لعبة من ألعاب لاعب واحد ضمن TextArena. وتُظهر نتائجنا أن استخدام نموذج أصغر لتوليد هيكل تحكم مخصص (code harness) أو سياسة كاملة يمكن أن يتفوق على نموذج أكبر حجمًا، مع تحقيق كفاءة تكلفة أعلى في الوقت نفسه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AutoHarness: تحسين وكلاء LLM من خلال تركيب إطار عمل كودي تلقائيًا | مستندات | HyperAI