شبكات التطابق الحجمية للتدفق البصري

تُعد العديد من المهام الكلاسيكية في الرؤية الحاسوبية — مثل تقدير التدفق البصري أو الفروق الاستيريوية — قابلة للصياغة كمطابقة مطابقة كثيفة. تُستخدم تقنيات معروفة لتحقيق ذلك بتوسيع حجم التكلفة، والذي يُعد عادةً تمثيلاً أربعي الأبعاد (4D) لتكاليف المطابقة بين جميع نقاط الصورة ثنائية الأبعاد وتطابقاتها المحتملة في نافذة بحث ثنائية الأبعاد. تُعتمد الشبكات العميقة المتطورة حديثًا (SOTA) في المهام المتعلقة بالتدفق أو الاستيريو على تمثيلات حجمية مشابهة كطبقات داخلية. ومع ذلك، تتطلب هذه الطبقات كميات كبيرة من الذاكرة والمعالجة الحاسوبية، مما يجعل استخدامها مُتعبًا عمليًا. ونتيجة لذلك، تُستخدم الشبكات المتطورة أيضًا مجموعة من التقديرات التكتيكية المُصممة لتقليل المعالجة الحجمية، ما يؤدي إلى دقة محدودة وتَعَبُّطٍ مفرط. بدلًا من ذلك، نُقدّم عدة تعديلات بسيطة تُبسط بشكل كبير استخدام الطبقات الحجمية — (1) معمارية مُشفِّر-مُفكِّك حجمية تُمكن من التقاط مجالات استقبال واسعة بكفاءة، (2) حُجُوم تكلفة متعددة القنوات التي تُسجِّل مفاهيم متعددة الأبعاد للمطابقة بين النقاط، وأخيرًا (3) تصفية حجمية منفصلة تقلل بشكل كبير من العمليات الحسابية وعدد المعاملات مع الحفاظ على الدقة. تُحسّن ابتكاراتنا بشكل كبير من الدقة مقارنة بالطرق المتطورة حديثًا على المعايير القياسية، مع أن تكون أبسط بكثير في الاستخدام — حيث تُسجِّل التدريبات تقاربًا في 10 أضعاف أقل عدد من التكرارات، والأهم من ذلك، تُظهر شبكاتنا قدرة عامة على المهام المختلفة للمطابقة. يسمح التكيّف الفوري لنافذة البحث بإعادة استخدام شبكات التدفق البصري في المهام الاستيريوية (وعكس ذلك)، ويمكن أيضًا استخدامه لتنفيذ شبكات مُتكيفة تزيد حجم نافذة البحث عند الحاجة.