Command Palette
Search for a command to run...
Les grands modèles pré-entraînés vision-langage sont-ils efficaces comme inspecteurs de sécurité dans les chantiers ?
Xuezheng Chen Zhengbo Zou

Résumé
Les inspections de sécurité sur les chantiers de construction consistent généralement en une identification, sur site, par un inspecteur humain, des risques liés à la sécurité. Avec l’émergence de puissants modèles visuels-langagiers (Vision Language Models, VLM), les chercheurs explorent leur utilisation pour des tâches telles que la détection de violations de règles de sécurité à partir d’images prises sur site. Toutefois, il manque actuellement des jeux de données ouverts permettant d’évaluer de manière exhaustive et de fine-tuner davantage les VLM dans le domaine de l’inspection de sécurité des chantiers. Les applications actuelles des VLM s’appuient sur des jeux de données petits et étiquetés de manière supervisée, ce qui limite leur applicabilité à des tâches pour lesquelles ils n’ont pas été directement entraînés. Dans cet article, nous proposons ConstructionSite 10k, un ensemble de données comprenant 10 000 images de chantiers de construction, annotées pour trois tâches interconnectées : la génération de légendes d’images (image captioning), la réponse à des questions visuelles sur les violations de règles de sécurité (safety rule violation visual question answering, VQA), et le repérage visuel des éléments de construction (visual grounding). Notre évaluation ultérieure des meilleurs modèles VLM pré-entraînés actuels révèle des capacités de généralisation notables dans des scénarios à zéro exemple (zero-shot) et à peu d’exemples (few-shot), bien que des entraînements supplémentaires soient nécessaires pour les rendre applicables à des chantiers réels. Ce jeu de données permet aux chercheurs d’entraîner et d’évaluer leurs propres modèles VLM, avec des architectures ou des techniques nouvelles, offrant ainsi une référence précieuse pour les travaux en matière d’inspection de sécurité sur les chantiers.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.