UMIFormer: استخراج العلاقات بين الرموز المتشابهة لإعادة بناء 3D متعددة الآراء

في السنوات الأخيرة، حققت العديد من المهام المرئية اختراقات كبيرة من خلال استخدام متحول الرؤية (Vision Transformer) وإنشاء فصل المكان والزمان لاستخراج الخصائص. على الرغم من أن إعادة بناء الصور ثلاثية الأبعاد متعددة الزوايا تواجه أيضًا صورًا متعددة كمدخلات، إلا أنها لا تستطيع الاستفادة مباشرة من هذه النجاحات بسبب العلاقات الغامضة تمامًا بين الزوايا غير المنظمة. لا توجد علاقات سابقة قابلة للاستخدام مشابهة لخاصية التماسك الزمني في الفيديو. لحل هذه المشكلة، نقترح شبكة متحول جديدة للصور المتعددة غير المنظمة (UMIFormer). تستغل هذه الشبكة كتل المتحول لترميز البيانات داخل كل زاوية بشكل مستقل، وتصمم كتلًا خاصة لتصحيح الرموز التي تستكشف الارتباط بين الرموز المشابهة من زوايا مختلفة لتحقيق ترميز بيانات بين الزوايا بشكل مستقل. بعد ذلك، يتم ضغط جميع الرموز المستخرجة من الفروع المختلفة إلى تمثيل مضغوط بحجم ثابت مع الحفاظ على المعلومات الغنية اللازمة لإعادة البناء عن طريق استغلال التشابهات بين الرموز. نقوم بالتحقق تجريبيًا على ShapeNet ونؤكد أن طريقة التعلم المستقلة لدينا قابلة للتكيف مع الصور المتعددة غير المنظمة. في الوقت نفسه، تثبت التجارب أيضًا أن نموذجنا يتفوق بشكل كبير على أفضل الأساليب الحالية (SOTA). سيتم توفير الكود في https://github.com/GaryZhu1996/UMIFormer.