HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

هل النماذج الكبيرة المُدرَّبة مسبقًا للرؤية واللغة فعّالة كمُراقبين لسلامة البناء؟

Xuezheng Chen Zhengbo Zou

هل النماذج الكبيرة المُدرَّبة مسبقًا للرؤية واللغة فعّالة كمُراقبين لسلامة البناء؟

الملخص

تتضمن عمليات التفتيش على السلامة في البناء عادةً وجود مُفتش بشري يقوم بتحديد المخاطر المتعلقة بالسلامة في الموقع. ومع صعود نماذج الرؤية واللغة القوية (VLMs)، بدأ الباحثون في استكشاف استخدامها في مهام مثل الكشف عن انتهاكات قواعد السلامة من خلال الصور المأخوذة من الموقع. ومع ذلك، يُعاني المجال من نقص في مجموعات بيانات مفتوحة تُستخدم لتقييم شامل وتحسين مزيد من التدريب النموذجي لـ VLMs في مجال التفتيش على السلامة في البناء. تُستخدم التطبيقات الحالية لـ VLMs مجموعات بيانات صغيرة مُعلمة مسبقًا، ما يحد من قابليتها للتطبيق في المهام التي لم تُدرَّس مباشرةً. في هذا البحث، نقترح مجموعة بيانات تُسمى ConstructionSite 10k، والتي تتضمن 10,000 صورة لمواقع بناء، مُعلَّمة لثلاث مهام مترابطة، تشمل توليد عناوين للصور، والإجابة على أسئلة حول انتهاكات قواعد السلامة (VQA)، وتحديد عناصر البناء في الصور. وتبين تقييماتنا اللاحقة للنماذج الحديثة المتقدمة من نماذج VLM المُدرَّبة مسبقًا قدرات تعميم ملحوظة في البيئات ذات الصفر-تدريب (zero-shot) والتدريب القليل (few-shot)، مع الحاجة إلى تدريب إضافي لجعلها قابلة للتطبيق في المواقع الفعلية لبناء المشاريع. تتيح هذه المجموعة للباحثين تدريب وتجريب نماذج VLM الخاصة بهم باستخدام معمارية وتقنيات جديدة، مما يوفر معيارًا قياسيًا قيّمًا في مجال التفتيش على السلامة في البناء.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp