Command Palette
Search for a command to run...
Xuezheng Chen Zhengbo Zou

摘要
施工安全检查通常依赖人工检查员在施工现场识别安全隐患。随着强大视觉语言模型(Vision Language Models, VLMs)的兴起,研究人员开始探索其在从现场图像中检测安全规则违规行为等任务中的应用。然而,目前缺乏公开的数据集,以全面评估并进一步微调VLM在施工安全检查中的性能。现有的VLM应用多基于小规模、有监督的数据集,这限制了其在未直接训练过的任务中的适用性。本文提出ConstructionSite 10k数据集,包含10,000张施工现场图像,并为三个相互关联的任务提供标注,包括图像描述生成、安全规则违规视觉问答(Visual Question Answering, VQA)以及施工元素视觉定位(visual grounding)。我们对当前最先进的大型预训练VLMs进行的后续评估表明,这些模型在零样本(zero-shot)和少样本(few-shot)设置下展现出显著的泛化能力,但仍需额外训练才能使其适用于真实的施工现场。该数据集为研究人员提供了训练和评估新型架构与技术的VLMs的宝贵平台,为施工安全检查领域提供了一个重要的基准。