IMFNet: اندماج متعدد الوسائط قابل للتفسير لتسجيل السحاب النقطي

تعتمد الوصْف النقطي المُتقدم الحالي على معلومات البنية فقط، مما يؤدي إلى إهمال معلومات النسيج. ومع ذلك، فإن معلومات النسيج تُعدّ حاسمة بالنسبة لنا كبشر لتمييز أجزاء المشهد. علاوةً على ذلك، جميع الوصْفات النقطية القائمة على التعلم لا تُظهر شفافية، حيث يبقى غير واضح كيف تسهم النقاط الأصلية في تكوين الوصف النهائي. في هذه الورقة، نقترح طريقة جديدة للدمج متعدد الوسائط لتوليد وصف للتسجيل السحابي النقطي، مع أخذ كلاً من معلومات البنية والنسيج بعين الاعتبار. بشكل خاص، تم تصميم وحدة انتباه-دمج جديدة لاستخراج معلومات نسيجية موزونة لاستخلاص الوصف. بالإضافة إلى ذلك، نقترح وحدة قابلة للتفسير لشرح كيفية مساهمة النقاط الأصلية في تكوين الوصف النهائي. نستخدم عنصر الوصف كدالة خسارة لنقل التدرجات عكسياً إلى الطبقة المستهدفة، ونعتبر التدرج كمعيار لدلالة هذه النقطة على الوصف النهائي. تُعد هذه الورقة خطوة متقدمة نحو التعلم العميق القابل للتفسير في مهام التسجيل. وتشير التجارب الشاملة على مجموعات بيانات 3DMatch و3DLoMatch وKITTI إلى أن الوصف المتعدد الوسائط يحقق دقةً منافسة للحالة الراهنة، ويعزز تميّز الوصف. كما نُظهر فعالية وحدتنا القابلة للتفسير في تفسير عملية استخلاص وصف التسجيل.