HyperAI

توسيع حسابات وقت الاختبار للوكلاء ذوي النماذج اللغوية الكبيرة (LLM)

King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
تاريخ النشر: 6/18/2025
توسيع حسابات وقت الاختبار للوكلاء ذوي النماذج اللغوية الكبيرة (LLM)
الملخص

توسيع الحوسبة في وقت الاختبار أظهر نجاحًا ملحوظًا في تحسين قدرات النماذج اللغوية الكبيرة (LLMs) على الاستدلال. في هذا البحث، نقوم بأول استكشاف منهجي لتطبيق طرق توسيع وقت الاختبار على الوكلاء اللغويين وندرس مدى تحسينها لفعاليتهم. بصفة خاصة، نستكشف استراتيجيات مختلفة لتوسيع وقت الاختبار، بما في ذلك: (1) خوارزميات العينة المتوازية؛ (2) استراتيجيات التعديل التتابعي؛ (3) المدققون وطرق الدمج؛ (4) استراتيجيات تنويع السيناريوهات. نحلل بعناية ونقوم بإبطال تأثير استراتيجيات التصميم المختلفة عند تطبيق توسيع وقت الاختبار على الوكلاء اللغويين، وقد توصلنا إلى النتائج التالية: 1. يمكن أن يحسن توسيع الحوسبة في وقت الاختبار أداء الوكلاء. 2. معرفة الوقت المناسب للتأمل مهم للوكلاء. 3. بين الطرق المختلفة للمراجعة ودمج النتائج، الطريقة القائمة على القوائم هي الأفضل أداءً. 4. زيادة تنوع السيناريوهات لها تأثير إيجابي على أداء الوكيل في المهام.注释:- "LLMs" 翻译为 "النماذج اللغوية الكبيرة",这是常见的阿拉伯语翻译。- "parallel sampling algorithms" 翻译为 "خوارزميات العينة المتوازية"。- "sequential revision strategies" 翻译为 "استراتيجيات التعديل التتابعي"。- "verifiers and merging methods" 翻译为 "المدققون وطرق الدمج"。- "diversifying rollouts" 翻译为 "تنويع السيناريوهات"。