DrafterBench: معيار تقييم النماذج اللغوية الكبيرة لتمكين الأتمتة في الهندسة المدنية

أظهرت وكالات النماذج اللغوية الكبيرة (LLM) إمكانات كبيرة في حل المشكلات الحقيقية وتعهدت بأن تكون حلاً لتمكين الأتمتة في المهام الصناعية. ومع ذلك، فإن هناك حاجة لمزيد من المقاييس القياسية لتقييم الوكالات الأتمتة بشكل منهجي من وجهة نظر صناعية، مثل في مجال الهندسة المدنية. لذلك، نقترح DrafterBench كمقاييس قياسية شاملة لتقييم وكالات LLM في سياق مراجعة الرسومات الفنية، وهي مهمة تمثيلية في الهندسة المدنية. يحتوي DrafterBench على اثني عشر نوعًا من المهام التي تم تلخيصها من ملفات الرسومات الحقيقية، مع 46 دالة/أداة مخصصة ومجموع 1920 مهمة. DrafterBench هو مقاييس قياسية مفتوحة المصدر لاختبار كفاءة الوكالات الذكائية الاصطناعية في فهم التعليمات المعقدة والطويلة السياق، واستخدام المعرفة السابقة، والتكيّف مع جودة التعليمات الديناميكية عبر الوعي الضمني بالسياسة. يقيم هذا الأداة مجموعة متنوعة من القدرات في فهم البيانات المنظمة، تنفيذ الدوال، اتباع التعليمات، والتفكير النقدي. يقدم DrafterBench تحليلًا تفصيليًا لدقة المهام وإحصاءات الأخطاء، بهدف توفير رؤى أعمق حول قدرات الوكالات وتحديد أهداف التحسين لدمج النماذج اللغوية الكبيرة في التطبيقات الهندسية. يمكن الوصول إلى مقاييسنا القياسية عبر الرابط https://github.com/Eason-Li-AIS/DrafterBench، حيث يتم استضافة مجموعة الاختبار عبر الرابط https://huggingface.co/datasets/Eason666/DrafterBench.