Command Palette

Search for a command to run...

2달 전

대규모 사전 훈련된 시각언어 모델은 건설 안전 점검원으로서 효과적인가?

Xuezheng Chen Zhengbo Zou

대규모 사전 훈련된 시각언어 모델은 건설 안전 점검원으로서 효과적인가?

초록

건설 안전 점검은 일반적으로 현장의 인력 점검자가 안전 문제를 식별하는 방식으로 수행된다. 최근 강력한 시각언어 모델(Vision Language Models, VLMs)의 등장에 따라 연구자들은 현장 이미지에서 안전 규정 위반을 탐지하는 등의 작업에 VLM을 활용하는 방안을 탐색하고 있다. 그러나 건설 안전 점검 분야에서 VLM을 포괄적으로 평가하고 추가 미세조정(fine-tuning)할 수 있는 공개 데이터셋이 부족한 실정이다. 현재 VLM의 활용 사례는 작은 감독 데이터셋을 사용하고 있어, 직접 학습되지 않은 작업에 대한 적용 가능성이 제한된다. 본 연구에서는 이미지 캡션 생성, 안전 규정 위반 시각질의응답(Visual Question Answering, VQA), 건설 요소 시각적 기반(Visual Grounding)이라는 세 가지 상호연결된 작업에 대한 레이블이 부여된 총 10,000개의 건설 현장 이미지를 포함하는 'ConstructionSite 10k' 데이터셋을 제안한다. 제안된 데이터셋을 바탕으로 최신의 대규모 사전 학습된 VLM들을 평가한 결과, 제로샷(Zero-shot) 및 희소샷(Few-shot) 설정에서 뛰어난 일반화 능력을 보였으나, 실제 건설 현장에 적용하기 위해서는 추가적인 학습이 필요함을 확인하였다. 본 데이터셋은 연구자들이 새로운 아키텍처 및 기법을 활용하여 자체 VLM을 학습하고 평가할 수 있는 기반을 제공하며, 건설 안전 점검 분야의 중요한 기준(benchmark)이 될 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp