NeW CRFs: CRFs كاملة الاتصال بالنافذة العصبية لتقدير العمق من صورة واحدة

تقدير العمق الدقيق من صورة واحدة يُعد تحديًا بسبب طبيعته المبهمة ومشكلة غير محددة بشكل جيد. في حين أن الدراسات الحديثة تُصمم شبكات متقدمة ومعقدة بشكل متزايد للانحدار المباشر لخريطة العمق، فإننا نسلك طريق تحسين النماذج الشبكية المتجهة (CRFs). وبسبب التكلفة الحسابية العالية، تُجرى عمليات CRFs عادةً بين الجيران بدلاً من الرسم البياني الكامل. وللاستفادة من الإمكانات الكامنة في CRFs ذات الاتصال الكامل، نقوم بتقسيم الصورة المدخلة إلى نوافذ، ونُنفّذ تحسين FC-CRFs داخل كل نافذة، مما يقلل من تعقيد الحسابات ويُجعل FC-CRFs قابلاً للتطبيق عمليًا. ولتحسين التقاط العلاقات بين العقد في الرسم البياني، نستخدم آلية الانتباه متعدد الرؤوس لحساب دالة احتمالية متعددة الرؤوس، والتي تُقدَّم إلى الشبكة العصبية لإنتاج خريطة عمق محسّنة. ثم نبني هيكلًا تنازليًا-ترقيًا، حيث يُستخدم وحدة FC-CRFs العصبية ذات النافذة كمُفكّك (decoder)، بينما تُستخدم نموذج التحويل البصري (Vision Transformer) كمُشفر (encoder). تُظهر التجارب أن طريقتنا تُحسّن الأداء بشكل ملحوظ على جميع المقاييس في كلا مجموعتي البيانات KITTI وNYUv2 مقارنة بالأساليب السابقة. علاوة على ذلك، يمكن تطبيق الطريقة المقترحة مباشرة على الصور الدائرية (panorama)، وتفوق جميع الأساليب السابقة في مجموعات بيانات MatterPort3D. صفحة المشروع: https://weihaosky.github.io/newcrfs.