شبكة التصوير الثنائي الاتجاه لفهم المشهد عبر الأبعاد

تمثيلات الصور ثنائية الأبعاد تكون على شكل شبكات منتظمة ويمكن معالجتها بكفاءة، في حين أن السحابات النقطية ثلاثية الأبعاد غير مرتبة ومتناثرة في الفضاء ثلاثي الأبعاد. إن المعلومات الموجودة داخل هذين المجالين البصريين مكملة جيدًا لبعضها البعض، على سبيل المثال، تمتلك الصور ثنائية الأبعاد نسيجًا دقيقًا، بينما تحتوي السحابات النقطية ثلاثية الأبعاد على معلومات هندسية غنية. ومع ذلك، فإن معظم أنظمة التعرف البصري الحالية تعالج هذين النوعين من البيانات بشكل منفصل. في هذا البحث، نقدّم شبكةً تُسمى \emph{BPNet} (شبكة التصوير المزدوج الاتجاه) لاستنتاج مشترك بين الصور ثنائية الأبعاد والبيانات ثلاثية الأبعاد بطريقة نهائية (end-to-end). تتضمن هذه الشبكة فرعَيْن: فرع ثنائي الأبعاد وفرع ثلاثي الأبعاد، ببنية متماثلة، متصلان بواسطة وحدة التصوير المزدوج الاتجاه (\emph{BPM}) التي نقترحها. من خلال وحدة \emph{BPM}، يمكن للبيانات المكملة من المجالين ثنائي وثلاثي الأبعاد التفاعل مع بعضها البعض على مستويات معمارية متعددة، مما يسمح بدمج المزايا المتوفرة في هذين المجالين البصريين لتحقيق تحسين في فهم المشهد. أظهرت تقييمات تجريبية كمية ونوعية واسعة أن الاستنتاج المشترك بين المجالين البصريين ثنائي وثلاثي الأبعاد يفيد كلا المجالين في نفس الوقت في فهم المشهد. حققت شبكة \emph{BPNet} أفضل الأداء على معيار ScanNetV2 في مهام التصنيف الدلالي ثنائي وثلاثي الأبعاد. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/wbhu/BPNet}.