Command Palette
Search for a command to run...
HSCodeComp: معيار واقعي ومتخصص لوكالات البحث العميقة في تطبيق القواعد الهرمية
Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

الملخص
يجب أن تمتلك الوكالات العميقة الفعّالة القدرة على الوصول إلى معرفة مفتوحة النطاق ومعرفة محددة حسب المجال، إلى جانب تطبيق قواعد معقدة — مثل أحكام قانونية، وكتيبات طبية، وقواعد جمركية. وغالبًا ما تتميز هذه القواعد بحدود غامضة وعلاقات منطقية ضمنية، ما يجعل تطبيقها بدقة أمرًا صعبًا على الوكالات. ومع ذلك، تُهمل هذه القدرة الحاسمة إلى حد كبير في المعايير الحالية للوكلاء. لسد هذا الفجوة، نقدّم HSCodeComp، أول معيار واقعي ومتخصص لمنصات التجارة الإلكترونية مُصمم لاختبار وكالات البحث العميق في تطبيق القواعد الهرمية. في هذا المهمة، يُوجَّه عملية التفكير العميقة للوكلاء وفقًا لهذه القواعد لتنبؤ رمز النظام المنسق (HSCode) المكوّن من 10 أرقام لمنتجات مُوصَفَة ببيانات مُشوشة لكنها واقعية. وتعتبر هذه الرموز، التي أنشأها المنظمة الجمركية العالمية، حاسمة لفعالية سلسلة التوريد العالمية. تم بناء HSCodeComp من بيانات واقعية جُمعت من منصات تجارة إلكترونية ضخمة، ويتضمن 632 إدخالًا لمنتجات تغطي فئات منتجات متنوعة، مع توثيق رموز HSCodes بواسطة عدد من الخبراء البشريين. أظهرت النتائج التجريبية الواسعة على عدة نماذج لغوية كبيرة (LLMs) مفتوحة المصدر ومقفلة المصدر فجوة أداء كبيرة: حيث بلغت أفضل أداء للوكلاء 46.8% دقة في التنبؤ بالرمز المكوّن من 10 أرقام، وهو ما يبقيه بعيدًا جدًا عن أداء الخبراء البشريين البالغ 95.0%. علاوةً على ذلك، تُبيّن التحليلات التفصيلية التحديات المرتبطة بتطبيق القواعد الهرمية، كما تُظهر أن التوسع في وقت التقييم (test-time scaling) لا يُسهم في تحسين الأداء بشكل إضافي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.