WaveMix: شبكة عصبية فعالة من حيث الموارد لتحليل الصور

نقترح معمارية عصبية جديدة لرؤية الحاسوب -- WaveMix -- والتي تكون فعالة من حيث الموارد ومع ذلك قابلة للتطبيق العام والتوسيع. بينما تستخدم شبكة WaveMix عددًا أقل من المعلمات القابلة للتدريب، وذاكرة GPU، والحسابات، فإنها تحقق دقة مماثلة أو أفضل من أحدث شبكات العصبونات التلافيفية، ومتحولات الرؤية، وخلطاء الرموز في عدة مهام. يمكن أن تترجم هذه الكفاءة إلى توفير الوقت والتكلفة والطاقة. لتحقيق هذه المكاسب استخدمنا تحويل الموجات المتقطعة ثنائية الأبعاد متعدد المستويات (2D-DWT) في كتل WaveMix، والذي يتمتع بالفوائد التالية: (1) إعادة تنظيم المعلومات الفضائية بناءً على ثلاثة افتراضات صورية قوية -- الثبات حسب القياس، والثبات حسب الانزياح، والندرة في حواف الصور -- (2) بطريقة لا تخسر البيانات ولا تضيف معلمات، (3) مع خفض أحجام الخرائط الميزانية الفضائية، مما يقلل من الذاكرة والوقت المطلوبين للمرور الأمامي والخلفي، و(4) توسيع مجال الاستقبال بشكل أسرع من التلافيف. تتكون المعمارية الكاملة من تراكم كتل WaveMix ذاتية الشبه والمحتفظة بدقة الدقة، مما يسمح بالمرونة المعمارية لمجموعة متنوعة من المهام ومستويات توفر الموارد. تقوم WaveMix بتأسيس مقاييس جديدة للتقطيع في Cityscapes؛ وللتصنيف في Galaxy 10 DECals، وPlaces-365، وخمسة مجموعات بيانات EMNIST، وiNAT-mini وتقدم أداءً تنافسيًا في مقاييس أخرى. رمزنا وأنموذجتنا المتدرّبة متاحة للجمهور بشكل مجاني.