Command Palette
Search for a command to run...
TUMIX: التوسع في وقت الاختبار متعدد الوكلاء باستخدام خليط الأدوات
Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

الملخص
على الرغم من أن دمج أدوات مثل "مُحلل الكود" (Code Interpreter) و"البحث" قد عزز بشكل كبير القدرة على الاستنتاج لدى النماذج الكبيرة للغة (LLM) في نماذج مثل ChatGPT Agent وGemini-Pro، إلا أن هناك نقصًا في التوجيه العملي حول الاستخدام الأمثل لهذه الأدوات. والتحدي الأساسي يتمثل في الجمع الفعّال بين الاستدلال النصي، والبرمجة، والبحث، لمعالجة مجموعة متنوعة من الأسئلة. في هذا البحث، نقترح إطارًا مُجمَّعًا يُسمى TUMIX (مزيج استخدام الأدوات)، والذي يعمل على تشغيل عدة وكلاء بشكل متوازٍ، حيث يعتمد كل وكيل على استراتيجية مختلفة لاستخدام الأدوات ومسار إجابة مُختلف. ويتناوب وكلاء TUMIX على مشاركة إجاباتهم وتحسينها تدريجيًا بناءً على السؤال والردود السابقة. وفي التجارب، حقق TUMIX تحسنًا ملحوظًا مقارنةً بأفضل الطرق الحالية المُحسّنة بأدوات أو المُعتمدة على التوسع في وقت الاختبار، حيث سجل تحسنًا متوسطًا في الدقة يصل إلى 3.55% مقارنةً بأفضل نموذج أساسي على نماذج Gemini-2.5-Pro وGemini-2.5-Flash في معايير الاستدلال الأساسية، مع تكلفة استدلال قريبة من المتساوية. ووجدنا أن التنوّع والجودة بين الوكلاء أمران حاسمان، ويمكن تحسينهما باستخدام نماذج لغة كبيرة (LLM) لتحسين تصميم الوكلاء تلقائيًا. علاوةً على ذلك، يمكن لـ TUMIX إيقاف عملية التحسين عند بلوغ مستوى كافٍ من الثقة، مما يحافظ على الأداء مع تقليل التكلفة إلى 49% فقط من التكلفة الأصلية. ويمكن تحقيق أداء أعلى من خلال التوسع الإضافي، على الرغم من ارتفاع التكلفة الناتجة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.