HyperAIHyperAI
منذ 2 أشهر

التجميع الانتباهي القوي لمجموعات الخصائص العميقة لإعادة بناء 3D متعددة الآراء

Bo Yang; Sen Wang; Andrew Markham; Niki Trigoni
التجميع الانتباهي القوي لمجموعات الخصائص العميقة لإعادة بناء 3D متعددة الآراء
الملخص

ندرس مشكلة استعادة الشكل ثلاثي الأبعاد الكامن من مجموعة من الصور. تتجه النماذج القائمة على التعلم عادةً إلى استخدام شبكات العصبونات المتكررة، مثل GRU، أو عمليات التجميع الحدسية، مثل التجميع الأقصى/المتوسط (max/mean poolings)، لدمج العديد من الخصائص العميقة المشفرة من الصور المدخلة. ومع ذلك، فإن الأساليب القائمة على GRU غير قادرة على تقدير أشكال ثلاثية الأبعاد بشكل متسق عند تقديم صور مدخلة بنفس المجموعة ولكن بترتيبات مختلفة، نظرًا لأن الوحدة المتكررة تتغير مع الترتيب (permutation variant). كما أنه من غير المرجح أن يتم تحسين الشكل الثلاثي الأبعاد عند إضافة المزيد من الصور بسبب فقدان الذاكرة طويلة الأمد في GRU. تقتصر الأساليب الشائعة للتجميع على التقاط معلومات جزئية، مثل القيم القصوى/المتوسطة (max/mean values)، مما يؤدي إلى تجاهل الخصائص الأخرى ذات القيمة. في هذا البحث، نقدم وحدة عصبية جديدة تعمل بالتدفق المباشر وتُسمى AttSets، بالإضافة إلى خوارزمية تدريب خاصة تُسمى FASet، لدمج مجموعة خصائص عميقة ذات حجم تعسفي بشكل انتقائي لإعادة بناء الشكل ثلاثي الأبعاد متعدد الآراء. تكون وحدة AttSets ثابتة بالنسبة للترتيب (permutation invariant)، فعالة من حيث الحسابات ومرونة في التنفيذ، بينما تمكّن خوارزمية FASet الشبكة القائمة على AttSets من أن تكون شديدة المتانة وقابلة للعمومية إلى عدد تعسفي من الصور المدخلة. قمنا بتقييم FASet وخواص AttSets بشكل شامل باستخدام عدة قواعد بيانات عامة كبيرة. أظهرت التجارب الواسعة أن AttSets مع خوارزمية FASet يتفوقان بشكل كبير على الأساليب الحالية للتجميع.