HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين الميزات المحلية من خلال معلومات مكانية ذات صلة باستخدام محول الرؤية لعدّ الحشود

Steven Q.H. Truong Trung Bui Chanh D. Tr. Nguyen Dao Huu Hung Phan Nguyen Soan T. M. Duong Ta Duc Huy Nguyen H. Tran

الملخص

أظهرت نماذج Vision Transformer (ViT) المُطوّرة أداءً متقدماً جداً في العديد من معايير الرؤية الحاسوبية، بما في ذلك عدّ الحشود. وعلى الرغم من التقدّم الكبير الذي أظهرته النماذج القائمة على Transformer في مهام عدّ الحشود، إلا أن الطرق الحالية تواجه بعض القيود. فالمُدمَجات العالمية المستخرجة من نماذج ViT لا تتضمن الميزات المحلية الدقيقة، مما يجعلها عرضة للخطأ في المشاهد المزدحمة التي تتميز بمختلف أحجام البشر وكثافاتهم. في هذا البحث، نقترح نموذج LoViTCrowd، بناءً على الحجة القائلة بأن: الميزات المحلية التي تحتوي على معلومات مكانيّة من المناطق ذات الصلة، عبر آلية الانتباه في ViT، يمكن أن تقلّل بشكل فعّال من أخطاء عدّ الحشود. ولتحقيق ذلك، نقسّم كل صورة إلى شبكة من الخلايا. وبأخذ مربعات مكوّنة من 3×3 خلايا، حيث تُحتوي على الأجزاء الرئيسية للجسم البشري، فإن الخلايا المحيطة توفر معلومات مفيدة لتقدير الحشود. نُعدّل ViT لكل مربع بحيث يستخدم آلية الانتباه عبر الخلايا الـ 3×3 لعدّ عدد الأشخاص في الخلية المركزية. ويتم الحصول على عدد الأشخاص في الصورة من خلال جمع عدد الأشخاص في الخلايا غير المتداخلة. أظهرت التجارب الواسعة على أربع مجموعات بيانات عامة تمثّل المشاهد النادرة والكثيفة، وهي Mall وShanghaiTech Part A وShanghaiTech Part B وUCF-QNRF، أداءً متفوّقاً على المستوى العالمي لطرق أخرى. ومقارنةً بـ TransCrowd، تمكّن LoViTCrowd من تقليل متوسّط أخطاء الجذر التربيعي للمسافة (RMSE) بنسبة 14.2%، وأخطاء القيمة المطلقة المتوسطة (MAE) بنسبة 9.7%. يمكن الوصول إلى المصدر من خلال الرابط: https://github.com/nguyen1312/LoViTCrowd


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp