Command Palette
Search for a command to run...
AutoHarness: تحسين وكلاء LLM من خلال تركيب إطار عمل كودي تلقائيًا
AutoHarness: تحسين وكلاء LLM من خلال تركيب إطار عمل كودي تلقائيًا
Xinghua Lou Miguel Lázaro-Gredilla Antoine Dedieu Carter Wendelken Wolfgang Lehrach Kevin P. Murphy
الملخص
رغم التقدم الكبير الذي أحرزته نماذج اللغة في السنوات الأخيرة، فإن استخدامها كـ Agents غالبًا ما يؤدي إلى تنفيذ إجراءات ليست فقط غير مثالية للحالة المعطاة، بل إنها ممنوعة صراحةً من قِبَل البيئة الخارجية. وعلى سبيل المثال، في مسابقة Kaggle GameArena للشطرنج الأخيرة، يُعزى 78% من هزائم نموذج Gemini-2.5-Flash إلى تحركات غير قانونية. وفي كثير من الأحيان، يلجأ الباحثون إلى كتابة "هياكل تحكم" (harnesses) يدويًا حول نماذج الـ LLM لمنع مثل هذه الإخفاقات. وفي هذه الورقة، نبيّن أن نموذج Gemini-2.5-Flash قادر على توليد مثل هذا الـ code harness تلقائيًا، وذلك باستخدام عدد محدود من دورات التحسين التكراري للكود، مدعومةً بتغذية راجعة مستقاة من البيئة (اللعبة). ويمنع الـ harness الناتج جميع التحركات غير القانونية في 145 لعبة مختلفة ضمن TextArena (سواء لألعاب لاعب واحد أو لاعبين)، مما يمكّن نموذج Gemini-2.5-Flash الأصغر حجمًا من التفوق على نماذج أكبر، مثل Gemini-2.5-Pro. وعند دفع تقنيتنا إلى حدودها القصوى، نتمكن من جعل Gemini-2.5-Flash يولّد السياسة (policy) بأكملها على شكل كود، مما يلغي الحاجة إلى استخدام الـ LLM في لحظة اتخاذ القرار. ويحقق كود السياسة الناتج متوسط مكافأة أعلى من نماذج Gemini-2.5-Pro وGPT-5.2-High في 16 لعبة من ألعاب لاعب واحد ضمن TextArena. وتُظهر نتائجنا أن استخدام نموذج أصغر لتوليد هيكل تحكم مخصص (code harness) أو سياسة كاملة يمكن أن يتفوق على نموذج أكبر حجمًا، مع تحقيق كفاءة تكلفة أعلى في الوقت نفسه.