HyperAIHyperAI
منذ 2 أشهر

تрансформر المجموعات الطويلة المدى لاستعادة ثلاثية الأبعاد متعددة الآراء

Yang, Liying ; Zhu, Zhenwei ; Lin, Xuxin ; Nong, Jian ; Liang, Yanyan
تрансформر المجموعات الطويلة المدى لاستعادة ثلاثية الأبعاد متعددة الآراء
الملخص

في الوقت الحاضر، أثبتت شبكات التحويل (transformer networks) تفوقها في العديد من مهام رؤية الكمبيوتر. في خوارزمية إعادة بناء ثلاثي الأبعاد متعددة الآراء التي تتبع هذا النموذج، يجب على معالجة الانتباه الذاتي التعامل مع الرموز الصورية المعقدة التي تحتوي على كميات هائلة من المعلومات عند مواجهة كميات كبيرة من إدخالات الآراء. يؤدي لعنة محتوى المعلومات إلى صعوبة شديدة في تعلم النموذج. لحل هذه المشكلة، اعتمد الأساليب الحديثة على ضغط عدد الرموز التي تمثل كل رأي أو التخلي عن عمليات الانتباه بين الرموز من آراء مختلفة. ومع ذلك، فإن هذه الأساليب تؤثر سلباً على الأداء بشكل واضح. لذلك، نقترح انتباه المجموعات طويلة المدى (LGA) المستند إلى مبدأ التقسيم والغلبة. يتم جمع الرموز من جميع الآراء لإجراء عمليات الانتباه بشكل منفصل. يتم اختيار الرموز في كل مجموعة من جميع الآراء ويمكنها توفير تمثيل عام للرأي الموجود فيه. يضمن التنوع بين المجموعات المختلفة غنى تعلم الخصائص. يمكن إنشاء مشفر فعال وكفء يربط الخصائص بين الآراء باستخدام LGA ويستخرج الخصائص داخل الرأي باستخدام طبقة الانتباه الذاتي القياسية. بالإضافة إلى ذلك، تم تصميم مشفر تصاعدي جديد لتكوين البكسل بدرجة دقة نسبية عالية. بالاعتماد على ما سبق، نقوم ببناء شبكة قوية مستندة إلى التحويل، والتي نطلق عليها اسم LRGT. تؤكد نتائج التجارب على ShapeNet أن طريقتنا تحقق دقة أفضل من نوعها (SOTA) في إعادة بناء متعدد الآراء. سيتم توفير الكود في الرابط التالي: https://github.com/LiyingCV/Long-Range-Grouping-Transformer.

تрансформر المجموعات الطويلة المدى لاستعادة ثلاثية الأبعاد متعددة الآراء | أحدث الأوراق البحثية | HyperAI