Efficient-CapsNet: شبكة كابسول مع توجيه ذاتي انتباهي

الشبكات العصبية العميقة ذات التحويلات التلافيفية، بمساعدة استراتيجيات تصميم البنية، تستخدم على نطاق واسع تقنيات تضخيم البيانات وطبقات تحتوي على عدد كبير من خرائط الميزات لدمج التحولات الكائنية. وهذا أمر غير فعّال إلى حد كبير، ويعني في حالة المجموعات الكبيرة من البيانات تكرارًا هائلاً لكاشفات الميزات. وعلى الرغم من أن شبكات الكبسولات ما زالت في مراحلها الأولى، إلا أنها تمثل حلاً واعدًا لتوسيع الشبكات التلافيفية الحالية، وتمكين الإدراك البصري الاصطناعي من عملية ترميز أكثر كفاءة لجميع التحولات الشكلية للميزات. في الواقع، ينبغي أن تحقق شبكة كبسولات تعمل بشكل صحيح نتائج أفضل نظريًا باستخدام عدد أقل بكثير من المعلمات، وذلك بفضل قدرتها الداخلية على التعميم على وجهات نظر جديدة. ومع ذلك، لم يُلقَ اهتمامٌ كافٍ على هذا الجانب المهم. في هذه الورقة، نستعرض كفاءة شبكات الكبسولات، ونُجسّد قدرتها إلى أقصى حد باستخدام بنية متطرفة تحتوي على نحو 160 ألف معلمة فقط، ونُثبت أن البنية المقترحة قادرة على تحقيق نتائج من طراز الرائد على ثلاث مجموعات بيانات مختلفة، وباستخدام ما يعادل 2% فقط من معلمات نموذج CapsNet الأصلي. علاوةً على ذلك، نستبدل التوجيه الديناميكي بخوارزمية توجيه جديدة، غير تكرارية، وقابلة للتنفيذ بالتوازي بكثافة، والتي يمكنها التعامل بسهولة مع عدد محدود من الكبسولات. وقد أظهرت التجارب الواسعة مع نُسخ أخرى من شبكات الكبسولات فعالية منهجيتنا، وتمكّن شبكات الكبسولات من تمثيل تمثيلات بصرية بكفاءة أعلى، وتميّزها بقدرة أكبر على التعميم.