한 달 전

DrafterBench: 건설공학에서 작업 자동화를 위한 대형 언어 모델 벤치마킹

Yinsheng Li, Zhen Dong, Yi Shao
DrafterBench: 건설공학에서 작업 자동화를 위한 대형 언어 모델 벤치마킹
초록

대형 언어 모델(LLM) 에이전트는 실제 문제 해결에 큰 잠재력을 보여주고 있으며, 산업에서의 작업 자동화를 위한 해결책이 될 가능성이 있습니다. 그러나 산업적 관점에서 자동화 에이전트를 체계적으로 평가하기 위해서는 더 많은 벤치마크가 필요합니다. 예를 들어, 건설공학 분야에서 그러한 벤치마크가 필요합니다. 따라서, 우리는 기술 도면 수정이라는 건설공학의 대표적인 작업 맥락에서 LLM 에이전트를 종합적으로 평가하기 위한 DrafterBench를 제안합니다. DrafterBench는 실제 도면 파일에서 요약된 12종류의 작업을 포함하며, 46개의 맞춤형 함수/도구와 총 1920개의 작업으로 구성되어 있습니다. DrafterBench는 오픈 소스 벤치마크로, 복잡하고 긴 문맥의 지시사항 해석 능력, 이전 지식 활용 능력, 그리고 암묵적인 정책 인식을 통해 동적 지시사항 품질에 적응하는 AI 에이전트의 숙련도를 엄격히 테스트하기 위해 설계되었습니다. 이 도구키트는 구조화된 데이터 이해, 함수 실행, 지시사항 준수, 비판적 추론 등의 다양한 능력을 종합적으로 평가합니다. DrafterBench는 작업 정확성과 오류 통계에 대한 상세 분석을 제공하여 에이전트의 능력을 깊게 이해하고 LLM을 공학 응용 프로그램에 통합하기 위한 개선 목표를 식별하는 것을 목표로 합니다. 우리의 벤치마크는 https://github.com/Eason-Li-AIS/DrafterBench에서 이용할 수 있으며, 테스트 세트는 https://huggingface.co/datasets/Eason666/DrafterBench에서 호스팅되고 있습니다.

DrafterBench: 건설공학에서 작업 자동화를 위한 대형 언어 모델 벤치마킹 | 최신 연구 논문 | HyperAI초신경