HyperAIHyperAI
il y a un mois

DrafterBench : Évaluation des grands modèles de langage pour l'automatisation des tâches en génie civil

Yinsheng Li, Zhen Dong, Yi Shao
DrafterBench : Évaluation des grands modèles de langage pour l'automatisation des tâches en génie civil
Résumé

Les agents de modèles de langage à grande échelle (LLM) ont montré un grand potentiel pour résoudre des problèmes du monde réel et promettent d'être une solution pour l'automatisation des tâches dans l'industrie. Cependant, il est nécessaire de disposer de plus de benchmarks pour évaluer systématiquement les agents d'automatisation sous l'angle industriel, par exemple dans le domaine du génie civil. Nous proposons donc DrafterBench pour une évaluation complète des agents LLM dans le contexte de la révision des dessins techniques, une tâche représentative du génie civil. DrafterBench comprend douze types de tâches résumés à partir de fichiers de dessins réels, avec 46 fonctions/outils personnalisés et 1920 tâches au total. DrafterBench est un benchmark open source conçu pour tester rigoureusement la maîtrise des agents d'IA dans l'interprétation d'instructions complexes et à long terme, l'utilisation de connaissances antérieures, et l'adaptation à la qualité dynamique des instructions grâce à une prise de conscience implicite des politiques. Le kit d'évaluation examine en détail les capacités distinctes en matière de compréhension des données structurées, d'exécution des fonctions, de suivi des instructions et de raisonnement critique. DrafterBench offre une analyse détaillée de la précision des tâches et des statistiques d'erreurs, visant à fournir une meilleure compréhension des capacités des agents et à identifier les objectifs d'amélioration pour intégrer les LLMs dans les applications d'ingénierie. Notre benchmark est disponible sur https://github.com/Eason-Li-AIS/DrafterBench, avec l'ensemble de tests hébergé sur https://huggingface.co/datasets/Eason666/DrafterBench.

DrafterBench : Évaluation des grands modèles de langage pour l'automatisation des tâches en génie civil | Articles de recherche récents | HyperAI