MobileStereoNet: نحو شبكات عميقة خفيفة الوزن للتوافق الثنائي

لقد ساهمت الأساليب الحديثة في مطابقة الاستيريو في تحسين الدقة باستمرار من خلال استخدام النماذج العميقة. ومع ذلك، يتم تحقيق هذا التحسن على حساب زيادة كبيرة في تكلفة الحساب، بحيث قد لا تتناسب الشبكة حتى مع وحدة معالجة رسومات متوسطة القوة. ويتسبب هذا التحدي في صعوبات عند محاولة نشر النموذج على أجهزة محدودة الموارد. ولحل هذه المشكلة، نقترح نموذجين خفيفي الوزن لنمذجة الرؤية الاستيريو، مع تقليل التعقيد دون التضحية بالدقة. وبناءً على بعد مصفوفة التكلفة، نصمم نموذجًا ثنائي الأبعاد ونموذجًا ثلاثي الأبعاد، حيث يعتمد كل منهما على هيكل مشفر-مُعاد تشكيل (Encoder-Decoder) مبني على عمليات تبليط ثنائي وثلاثي الأبعاد، على التوالي. ولتحقيق ذلك، نستفيد من كتل MobileNet ثنائية الأبعاد ونقوم بتوسيعها إلى ثلاثة أبعاد لتطبيقها في مجال الرؤية الاستيريو. بالإضافة إلى ذلك، نقترح مصفوفة تكلفة جديدة لتعزيز دقة النموذج ثنائي الأبعاد، مما يجعل أداؤه قريبًا من أداء الشبكات ثلاثية الأبعاد. تُظهر التجارب أن الشبكات المُقترحة ثنائية وثلاثية الأبعاد تقلل بشكل فعّال من تكلفة الحساب (بمقدار 27%/95% و72%/38% في عدد المعاملات/العمليات الحسابية للنماذج ثنائية وثلاثية الأبعاد، على التوالي)، مع الحفاظ على الدقة. يمكن الوصول إلى الكود المقدم عبر الرابط التالي: https://github.com/cogsys-tuebingen/mobilestereonet.