الانحناء المُتكيف للقطع النسيجية لاستقرار الرؤية المتعددة دون نسيج

في السنوات الأخيرة، أظهرت الأساليب القائمة على التعلم العميق قوة كبيرة في المسح الثلاثي للمناظر متعددة الزوايا بفضل قدرتها المتميزة على استخلاص سمات بصرية قوية. ومع ذلك، تتطلب معظم الأساليب القائمة على التعلم بناء حجم التكلفة وتوسيع مجال الاستقبال بشكل كبير للحصول على نتائج مرضية عند التعامل مع مناطق كبيرة خالية من النسيج، مما يؤدي إلى استهلاك ذاكرة غير مقبول. ولضمان كفاءة في استخدام الذاكرة مع مقاومة فعّالة للمناطق الخالية من النسيج، قمنا بتبني روح التحويل القابل للانحناء (deformable convolution) من مجال التعلم العميق في الأسلوب التقليدي القائم على PatchMatch. وبشكل محدد، بالنسبة لكل بكسل يعاني من غموض في المطابقة (يُسمّى بكسل غير موثوق)، نقوم بتعديل موضع الشريحة المركّزة حوله بشكل تكيفي لتوسيع مجال الاستقبال حتى تغطي عددًا كافيًا من البكسلات الموثوقة (التي لا تعاني من غموض في المطابقة) التي تُستخدم كنقاط مرجعية (أو "أوتار"). عند تنفيذ خوارزمية PatchMatch، وبما أن العمليات تُحدَّد بواسطة هذه النقاط المرجعية، يُضمن أن تكلفة المطابقة للبكسل غير الموثوق تصل إلى الحد الأدنى العالمي عند العمق الصحيح، وبالتالي يرتفع مستوى المقاومة والثبات في المسح الثلاثي للمناظر بشكل كبير. وللكشف عن عدد أكبر من النقاط المرجعية لضمان تحسين أفضل لتعديل الشريحة التكيفية، اقترحنا تقييم غموض المطابقة لبكسل معين من خلال مراقبة تقارب العمق المقدر أثناء عملية التحسين. في النتيجة، حقق أسلوبنا أداءً متقدمًا على مستوى الحالة الحالية (state-of-the-art) على مجموعتي بيانات ETH3D وTanks and Temples، مع الحفاظ على استهلاك منخفض للذاكرة.