Command Palette
Search for a command to run...
Sind große vortrainierte visuelle Sprachmodelle wirksame Baustellen-Sicherheitsinspektoren?
Xuezheng Chen Zhengbo Zou

Abstract
Baussicherheitsinspektionen beinhalten typischerweise die Identifizierung von Sicherheitsrisiken vor Ort durch einen menschlichen Inspektor. Mit dem Aufkommen leistungsstarker Vision-Language-Modelle (VLMs) erforschen Forscher deren Einsatz für Aufgaben wie die Erkennung von Verstößen gegen Sicherheitsvorschriften anhand von Ortseinstellungen. Doch es fehlt bisher an offenen Datensätzen, die eine umfassende Bewertung und weitere Feinabstimmung von VLMs im Bereich der Baussicherheitsinspektion ermöglichen. Aktuelle Anwendungen von VLMs nutzen kleinere, überwachte Datensätze, was ihre Anwendbarkeit auf Aufgaben beschränkt, für die sie nicht direkt trainiert wurden. In diesem Artikel stellen wir den ConstructionSite 10k vor, einen Datensatz mit 10.000 Baustellenbildern, die für drei miteinander verbundene Aufgaben annotiert sind: Bildbeschreibung (Image Captioning), visuelle Fragebeantwortung zu Sicherheitsvorschriften (Safety Rule Violation Visual Question Answering, VQA) sowie visuelle Grundlegung von Bauelementen (Construction Element Visual Grounding). Unsere anschließende Evaluation aktueller state-of-the-art, großskaliger vortrainierter VLMs zeigt erhebliche Generalisierungsfähigkeiten in Zero-Shot- und Few-Shot-Szenarien, wobei jedoch zusätzliche Trainingsphase erforderlich ist, um die Modelle für den Einsatz auf realen Baustellen tauglich zu machen. Der vorgestellte Datensatz ermöglicht Forschern, ihre eigenen VLMs mit neuen Architekturen und Methoden zu trainieren und zu evaluieren und liefert damit eine wertvolle Benchmark für die Baussicherheitsinspektion.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.