HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 10 أيام

HSCodeComp: معيار واقعي ومتخصص لوكالات البحث العميقة في تطبيق القواعد الهرمية

Yiqian Yang Tian Lan Qianghuai Jia Li Zhu Hui Jiang Hang Zhu Longyue Wang Weihua Luo Kaifu Zhang

HSCodeComp: معيار واقعي ومتخصص لوكالات البحث العميقة في تطبيق القواعد الهرمية

الملخص

يجب أن تمتلك الوكالات العميقة الفعّالة القدرة على الوصول إلى معرفة مفتوحة النطاق ومعرفة محددة حسب المجال، إلى جانب تطبيق قواعد معقدة — مثل أحكام قانونية، وكتيبات طبية، وقواعد جمركية. وغالبًا ما تتميز هذه القواعد بحدود غامضة وعلاقات منطقية ضمنية، ما يجعل تطبيقها بدقة أمرًا صعبًا على الوكالات. ومع ذلك، تُهمل هذه القدرة الحاسمة إلى حد كبير في المعايير الحالية للوكلاء. لسد هذا الفجوة، نقدّم HSCodeComp، أول معيار واقعي ومتخصص لمنصات التجارة الإلكترونية مُصمم لاختبار وكالات البحث العميق في تطبيق القواعد الهرمية. في هذا المهمة، يُوجَّه عملية التفكير العميقة للوكلاء وفقًا لهذه القواعد لتنبؤ رمز النظام المنسق (HSCode) المكوّن من 10 أرقام لمنتجات مُوصَفَة ببيانات مُشوشة لكنها واقعية. وتعتبر هذه الرموز، التي أنشأها المنظمة الجمركية العالمية، حاسمة لفعالية سلسلة التوريد العالمية. تم بناء HSCodeComp من بيانات واقعية جُمعت من منصات تجارة إلكترونية ضخمة، ويتضمن 632 إدخالًا لمنتجات تغطي فئات منتجات متنوعة، مع توثيق رموز HSCodes بواسطة عدد من الخبراء البشريين. أظهرت النتائج التجريبية الواسعة على عدة نماذج لغوية كبيرة (LLMs) مفتوحة المصدر ومقفلة المصدر فجوة أداء كبيرة: حيث بلغت أفضل أداء للوكلاء 46.8% دقة في التنبؤ بالرمز المكوّن من 10 أرقام، وهو ما يبقيه بعيدًا جدًا عن أداء الخبراء البشريين البالغ 95.0%. علاوةً على ذلك، تُبيّن التحليلات التفصيلية التحديات المرتبطة بتطبيق القواعد الهرمية، كما تُظهر أن التوسع في وقت التقييم (test-time scaling) لا يُسهم في تحسين الأداء بشكل إضافي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HSCodeComp: معيار واقعي ومتخصص لوكالات البحث العميقة في تطبيق القواعد الهرمية | الأوراق البحثية | HyperAI