HyperAIHyperAI
منذ 2 أشهر

CSFNet: شبكة دمج التشابه الجيب التمامي لتقسيم المعاني في الوقت الحقيقي للصور RGB-X في مشاهد القيادة

Danial Qashqai; Emad Mousavian; Shahriar Baradaran Shokouhi; Sattar Mirzakuchaki
CSFNet: شبكة دمج التشابه الجيب التمامي لتقسيم المعاني في الوقت الحقيقي للصور RGB-X في مشاهد القيادة
الملخص

التمييز الدلالي، كمكون أساسي في التفسير البصري المعقد، يلعب دورًا رئيسيًا في أنظمة الرؤية للمركبات ذاتية القيادة. وقد ساهمت الدراسات الحديثة بشكل كبير في تحسين دقة التمييز الدلالي من خلال استغلال المعلومات المكملة وتطوير الأساليب متعددة الوسائط. ومع ذلك، تعاني الأساليب المتعددة الوسائط للتمييز الدلالي من التعقيد الحسابي العالي والسرعة المنخفضة في الاستدلال. لذلك، يعتبر تنفيذ الأساليب متعددة الوسائط في التطبيقات المرورية مهمة صعبة.لحل هذه المشكلة، نقترح شبكة الاندماج بمشابهة الجيب التمام (CSFNet) كنموذج تمييز دلالي RGB-X في الوقت الحقيقي. وبشكل خاص، قمنا بتصميم وحدة اندماج الانتباه بمشابهة الجيب التمام (CS-AFM) التي تصحح وتندمج فيها ميزات الوسيلتين بشكل فعال. تستفيد وحدة CS-AFM من مشابهة الوسائط المتقاطعة لتحقيق قدرة تعميم عالية. عن طريق تعزيز اندماج ميزات الوسائط المتقاطعة على المستويات الدنيا، تفتح CS-AFM الطريق لاستخدام شبكة فرعية واحدة على المستويات العليا. لذلك، نستخدم هياكل ثنائية وفرعية واحدة في مُشفِّر (encoder)، بالإضافة إلى وحدة سياق فعالة وفاكِّتَر (decoder) خفيف الوزن للتنبؤ السريع والدقيق.لتحقق من فعالية CSFNet، نستخدم مجموعات البيانات Cityscapes و MFNet و ZJU لأغراض التمييز الدلالي RGB-D/T/P. حسب النتائج، فإن CSFNet تتمتع بدقة تنافسية مع أفضل الأساليب الحالية بينما تعتبر الأفضل من حيث السرعة بين نماذج التمييز الدلالي المتعددة الوسائط. كما أنها تحقق كفاءة عالية بسبب عدد المعلمات المنخفض والتعقيد الحسابي المنخفض. سيتم توفير الكود المصدر لـ CSFNet على الرابط https://github.com/Danial-Qashqai/CSFNet.