HyperAIHyperAI

Command Palette

Search for a command to run...

DrafterBench: معيار تقييم النماذج اللغوية الكبيرة لتمكين الأتمتة في الهندسة المدنية

Yinsheng Li Zhen Dong Yi Shao

الملخص

أظهرت وكالات النماذج اللغوية الكبيرة (LLM) إمكانات كبيرة في حل المشكلات الحقيقية وتعهدت بأن تكون حلاً لتمكين الأتمتة في المهام الصناعية. ومع ذلك، فإن هناك حاجة لمزيد من المقاييس القياسية لتقييم الوكالات الأتمتة بشكل منهجي من وجهة نظر صناعية، مثل في مجال الهندسة المدنية. لذلك، نقترح DrafterBench كمقاييس قياسية شاملة لتقييم وكالات LLM في سياق مراجعة الرسومات الفنية، وهي مهمة تمثيلية في الهندسة المدنية. يحتوي DrafterBench على اثني عشر نوعًا من المهام التي تم تلخيصها من ملفات الرسومات الحقيقية، مع 46 دالة/أداة مخصصة ومجموع 1920 مهمة. DrafterBench هو مقاييس قياسية مفتوحة المصدر لاختبار كفاءة الوكالات الذكائية الاصطناعية في فهم التعليمات المعقدة والطويلة السياق، واستخدام المعرفة السابقة، والتكيّف مع جودة التعليمات الديناميكية عبر الوعي الضمني بالسياسة. يقيم هذا الأداة مجموعة متنوعة من القدرات في فهم البيانات المنظمة، تنفيذ الدوال، اتباع التعليمات، والتفكير النقدي. يقدم DrafterBench تحليلًا تفصيليًا لدقة المهام وإحصاءات الأخطاء، بهدف توفير رؤى أعمق حول قدرات الوكالات وتحديد أهداف التحسين لدمج النماذج اللغوية الكبيرة في التطبيقات الهندسية. يمكن الوصول إلى مقاييسنا القياسية عبر الرابط https://github.com/Eason-Li-AIS/DrafterBench، حيث يتم استضافة مجموعة الاختبار عبر الرابط https://huggingface.co/datasets/Eason666/DrafterBench.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp