منذ 7 أشهر

الملخص

أظهرت وكالات النماذج اللغوية الكبيرة (LLM) إمكانات كبيرة في حل المشكلات الحقيقية وتعهدت بأن تكون حلاً لتمكين الأتمتة في المهام الصناعية. ومع ذلك، فإن هناك حاجة لمزيد من المقاييس القياسية لتقييم الوكالات الأتمتة بشكل منهجي من وجهة نظر صناعية، مثل في مجال الهندسة المدنية. لذلك، نقترح DrafterBench كمقاييس قياسية شاملة لتقييم وكالات LLM في سياق مراجعة الرسومات الفنية، وهي مهمة تمثيلية في الهندسة المدنية. يحتوي DrafterBench على اثني عشر نوعًا من المهام التي تم تلخيصها من ملفات الرسومات الحقيقية، مع 46 دالة/أداة مخصصة ومجموع 1920 مهمة. DrafterBench هو مقاييس قياسية مفتوحة المصدر لاختبار كفاءة الوكالات الذكائية الاصطناعية في فهم التعليمات المعقدة والطويلة السياق، واستخدام المعرفة السابقة، والتكيّف مع جودة التعليمات الديناميكية عبر الوعي الضمني بالسياسة. يقيم هذا الأداة مجموعة متنوعة من القدرات في فهم البيانات المنظمة، تنفيذ الدوال، اتباع التعليمات، والتفكير النقدي. يقدم DrafterBench تحليلًا تفصيليًا لدقة المهام وإحصاءات الأخطاء، بهدف توفير رؤى أعمق حول قدرات الوكالات وتحديد أهداف التحسين لدمج النماذج اللغوية الكبيرة في التطبيقات الهندسية. يمكن الوصول إلى مقاييسنا القياسية عبر الرابط https://github.com/Eason-Li-AIS/DrafterBench، حيث يتم استضافة مجموعة الاختبار عبر الرابط https://huggingface.co/datasets/Eason666/DrafterBench.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DrafterBench: معيار تقييم النماذج اللغوية الكبيرة لتمكين الأتمتة في الهندسة المدنية

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DrafterBench: معيار تقييم النماذج اللغوية الكبيرة لتمكين الأتمتة في الهندسة المدنية

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

DrafterBench: معيار تقييم النماذج اللغوية الكبيرة لتمكين الأتمتة في الهندسة المدنية

Yinsheng Li Zhen Dong Yi Shao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters