GCNDepth: تقدير العمق الأحادي التلقائي التدريب بناءً على الشبكة التلافيفية الرسومية

تُعد تقدير العمق مهمة صعبة في إعادة بناء الأجسام ثلاثية الأبعاد، بهدف تحسين دقة الاستشعار لفهم البيئة. ويقدم هذا العمل حلًا جديدًا من خلال مجموعة من التحسينات التي تُعزز الفهم الكمي والكيفي للخرائط العميقة مقارنة بالأساليب الحالية. في الآونة الأخيرة، أظهرت الشبكات العصبية التلافيفية (CNN) قدرتها الاستثنائية في تقدير خرائط العمق من مقاطع فيديو أحادية (Monocular Videos). ومع ذلك، فإن الشبكات التلافيفية التقليدية لا تدعم البنية الطوبولوجية، وتعمل فقط على مناطق صورة منتظمة ذات حجم ووزن محدد. من ناحية أخرى، يمكن للشبكات العصبية الرسومية (GCN) التعامل مع التلافيف على البيانات غير الإقليدية، ويمكن تطبيقها على مناطق صورة غير منتظمة ضمن بنية طوبولوجية. لذلك، في هذا العمل، بهدف الحفاظ على مظهر الأشكال الهندسية للتراكيب والحفاظ على توزيعها، نهدف إلى استغلال الشبكات العصبية الرسومية (GCN) لتطوير نموذج ذاتي التدريب (Self-supervised) لتقدير العمق. يتكون نموذجنا من شبكتين تشفير تلقائيتين متوازيتين: الأولى هي شبكة تشفير تلقائي تعتمد على ResNet-50 لاستخراج السمات من الصورة المدخلة، واستخدام شبكة GCN متعددة المقياس لتقدير خريطة العمق. في المقابل، ستُستخدم الشبكة الثانية لتقدير متجه الحركة الذاتية (أي الوضع الثلاثي الأبعاد) بين إطارين متتاليين، وذلك باستخدام ResNet-18. سيتم استخدام كل من الوضع الثلاثي الأبعاد المقدر وخريطة العمق المقدرة لبناء صورة مستهدفة. ويُستخدم مزيج من دوال الخسارة المتعلقة بالضوء (الصوري)، والتشويه (الإسقاط)، والانسيابية (الانسيابية) للتعامل مع التقديرات الخاطئة للعمق، والحفاظ على انقطاعات الأشكال. وبشكل خاص، أظهرت طريقة العمل نتائج متميزة ومقابلة للمنافسة، مع دقة تنبؤ عالية تبلغ 89٪ على مجموعتي بيانات KITTI وMake3D المفتوحة للجمهور، بالإضافة إلى خفض بنسبة 40٪ في عدد المعلمات القابلة للتدريب مقارنة بالحلول الرائدة في المجال. وتم إتاحة الشفرة المصدرية للجمهور عبر الرابط التالي: https://github.com/ArminMasoumian/GCNDepth.git