vor einem Monat

DrafterBench: Benchmarking großer Sprachmodelle für die Automatisierung von Aufgaben im Bauingenieurwesen

Yinsheng Li, Zhen Dong, Yi Shao

Abstract

Große Sprachmodelle (Large Language Models, LLMs) haben großes Potenzial zur Lösung realweltlicher Probleme gezeigt und versprechen, eine Lösung für die Automatisierung von Aufgaben in der Industrie zu sein. Allerdings sind weitere Benchmarks erforderlich, um die Automatisierungsagenten systematisch aus industrieller Sicht zu evaluieren, zum Beispiel im Bereich des Bauingenieurwesens. Deshalb schlagen wir DrafterBench vor, ein Benchmark-Tool zur umfassenden Bewertung von LLM-Agenten im Kontext der technischen Zeichenrevision, einer repräsentativen Aufgabe im Bauingenieurwesen. DrafterBench enthält zwölf Arten von Aufgaben, die aus realen Zeichnungsdateien zusammengefasst wurden, mit 46 angepassten Funktionen/Tools und insgesamt 1920 Aufgaben. DrafterBench ist ein Open-Source-Benchmark, der dazu dient, die Fähigkeiten von KI-Agenten bei der Interpretation komplexer und langfristiger Anweisungen streng zu testen, das Nutzen vorheriger Kenntnisse sowie das Anpassen an dynamische Anweisungsqualität durch implizite Politikbewusstsein. Das Toolkit bewertet umfassend unterschiedliche Kompetenzen in der Strukturierten Datenverarbeitung, Funktionsausführung, Anweisungsbefolgung und kritischem Denken. DrafterBench bietet eine detaillierte Analyse der Aufgabenakkuratesse und Fehlerstatistiken, wobei das Ziel darin besteht, tiefere Einblicke in die Agentenfähigkeiten zu gewinnen und Verbesserungsziele für die Integration von LLMs in Ingenieursanwendungen zu identifizieren. Unser Benchmark ist unter https://github.com/Eason-Li-AIS/DrafterBench verfügbar, wobei der Testdatensatz auf https://huggingface.co/datasets/Eason666/DrafterBench gehostet wird.