Command Palette
Search for a command to run...
DrafterBench: 土木工学におけるタスク自動化のための大規模言語モデルのベンチマーク
DrafterBench: 土木工学におけるタスク自動化のための大規模言語モデルのベンチマーク
Yinsheng Li Zhen Dong Yi Shao
概要
大規模言語モデル(Large Language Model: LLM)エージェントは、実世界の問題解決に大きな可能性を示し、産業におけるタスク自動化の解決策となることが期待されています。しかし、産業的な観点から自動化エージェントを体系的に評価するためには、より多くのベンチマークが必要です。例えば、土木工学の分野ではそのようなベンチマークが不足しています。そこで、私たちは技術図面修正という土木工学における表現タスクの文脈で、LLMエージェントの包括的な評価を行うためのDrafterBenchを提案します。DrafterBenchには、実際の図面ファイルからまとめられた12種類のタスクと、46個のカスタマイズされた関数/ツール、合計1920個のタスクが含まれています。DrafterBenchはオープンソースのベンチマークであり、AIエージェントが複雑かつ長文脈の指示を解釈する能力、先行知識を利用すること、および動的な指示品質への対応力を暗黙的なポリシー認識を通じて厳密にテストするために設計されています。このツールキットは構造化データ理解、関数実行、指示追従、および批判的推論といった異なる能力を包括的に評価します。DrafterBenchはタスク精度と誤り統計に関する詳細な分析を提供し、エージェント能力に対する深い洞察を得るとともに、エンジニアリングアプリケーションにLLMを統合する際の改善目標を特定することを目指しています。私たちのベンチマークはhttps://github.com/Eason-Li-AIS/DrafterBenchで利用可能であり、テストセットはhttps://huggingface.co/datasets/Eason666/DrafterBenchでホストされています。