HyperAIHyperAI
منذ 17 أيام

WaveMix-Lite: شبكة عصبية فعالة من حيث الموارد لتحليل الصور

{Amit, Pranav; Sethi, Jeevan}
WaveMix-Lite: شبكة عصبية فعالة من حيث الموارد لتحليل الصور
الملخص

لقد تحققت تطورات في قدرة الشبكات العصبية على التعميم في مهام تحليل الصور، لكنها جاءت على حساب زيادة عدد المعلمات والطبقات، وحجم المجموعات البيانات، والحوسبة المطلوبة للتدريب والاختبار، بالإضافة إلى استهلاك ذاكرة وحدة معالجة الرسومات (GPU). نقدّم معمارية جديدة تُسمى WaveMix-Lite، التي تُظهر قدرة تعميم مماثلة للنماذج الحديثة من نماذج التحويل (Transformers) والشبكات العصبية التلافيفية (CNNs)، مع استهلاك أقل للموارد. تعتمد WaveMix-Lite على تحويل الموجة المتقطعة ثنائي الأبعاد (2D-discrete wavelet transform) لخلط المعلومات المكانية من البكسلات بشكل فعّال. تبدو WaveMix-Lite إطارًا معماريًا مرنًا وقابلًا للتوسع، ويمكن استخدامه في مهام بصرية متعددة مثل تصنيف الصور والتقسيم الدلالي دون الحاجة إلى تغييرات هندسية كبيرة، على عكس نماذج التحويل والشبكات التلافيفية. كما تُحقق أداءً يُقاس أو يتفوق على عدة معايير دقة، مع التدريب على وحدة معالجة رسومات واحدة. على سبيل المثال، تحقق أداءً متفوقًا على مستوى الحد الأقصى في خمسة مجموعات بيانات EMNIST، وتتفوق على الشبكات التلافيفية ونماذج التحويل في مجموعتي بيانات ImageNet-1K وPlaces-365، كما تحقق متوسط دقة تقسيم مساحي (mIoU) قدره 77% على مجموعة التحقق من Cityscapes، مع استخدام أقل من خُمس عدد المعلمات وأقل من نصف ذاكرة وحدة معالجة الرسومات المستخدمة في الشبكات التلافيفية أو نماذج التحويل المماثلة. تُظهر تجاربنا أن بينما تستغل العناصر التلافيفية في الهياكل العصبية خاصية التحويل غير الحساس (shift-invariance) في الصور، فإن أنواع جديدة من الطبقات (مثل تحويل الموجة) تستطيع استغلال خصائص إضافية في الصور، مثل خاصية التماثل على المقياس (scale-invariance) وحدود المساحة المحدودة للكائنات.