شبكة AA-RMVSNet: شبكة متعددة المناظر المتكررة بتجانس تكيفي

في هذا البحث، نقدم شبكة استريو متعددة الآراء متكررة جديدة تعتمد على الذاكرة طويلة المدى قصيرة المدى (LSTM) مع التجميع التكيفي، والتي أطلقنا عليها اسم AA-RMVSNet. أولاً، نقدم وحدة تجميع داخلية لاستخراج الخصائص الصورية بشكل تكيفي باستخدام التفاف يعتمد على السياق والتجميع متعدد المقاييس، مما يحسن الأداء بكفاءة في المناطق الصعبة مثل الأجسام الرقيقة والسطوح الكبيرة ذات النسيج المنخفض. للتعامل مع صعوبة الاختفاء المتغير في المشاهد المعقدة، اقترحنا وحدة تجميع حجم التكلفة بين الآراء للتجميع البكسلي التكيفي بين الآراء، والتي تتمكن من الحفاظ على الأزواج الأكثر مطابقة بين جميع الآراء. الوحدتان المُقترحتان للتجميع التكيفي هما خفيفتا الوزن، فعالتان ومتكاملتان فيما يتعلق بتحسين دقة وإكمال إعادة بناء ثلاثية الأبعاد. بدلاً من الشبكات العصبية ثلاثية الأبعاد التقليدية (3D CNNs)، نستخدم شبكة هجينة ذات هيكل متكرر لتنظيم حجم التكلفة، مما يسمح بإعادة بناء عالية الدقة وتخطيط طائري فرضي أكثر دقة. تم تدريب الشبكة المقترحة بطريقة شاملة من البداية إلى النهاية وحققت أداءً ممتازًا على مجموعة متنوعة من البيانات. تحتل المرتبة الأولى بين جميع المشاركات في معيار Tanks and Temples وتحقق نتائج تنافسية على مجموعة بيانات DTU، مما يدل على قابلية تعميم قوية ومتانة. يمكن الوصول إلى تنفيذ طريقتنا عبر الرابط: https://github.com/QT-Zhu/AA-RMVSNet.