HyperAIHyperAI
منذ 3 أشهر

WaveMixSR: شبكة عصبية فعّالة من حيث الموارد لاسترجاع الصورة عالي الدقة

Pranav Jeevan, Akella Srinidhi, Pasunuri Prathiba, Amit Sethi
WaveMixSR: شبكة عصبية فعّالة من حيث الموارد لاسترجاع الصورة عالي الدقة
الملخص

أُخِذَتْ أبحاث التكبير الصوتي للصور مؤخرًا في قيادة نماذج التحويل (Transformer)، والتي تتطلب موارد حوسبة أعلى من الشبكات العصبية التلافيفية (CNNs) بسبب التعقيد التربيعي لعملية الانتباه الذاتي. نقترح شبكة عصبية جديدة تُسمى WaveMixSR للتكبير الصوتي للصور، مبنية على بنية WaveMix، وتستخدم التحويل الموجي الثنائي الأبعاد (2D-discrete wavelet transform) لخلط الرموز المكانية. على عكس النماذج القائمة على التحويل، لا تقوم WaveMixSR بتمديد الصورة إلى تسلسل من البكسلات أو القطع. بل تستخدم التحيز الاستنتاجي للتحويلات التلافيفية مع خاصية خلط الرموز دون فقدان المعلومات التي يوفرها التحويل الموجي، مما يتيح أداءً أعلى مع استهلاك أقل للموارد وبيانات التدريب. قمنا بمقارنة أداء شبكتنا مع الطرق الأخرى الرائدة في مجال التكبير الصوتي للصور. تُظهر تجاربنا أن WaveMixSR تحقق أداءً تنافسيًا في جميع مجموعات البيانات، وتحقيق أداءً رائدًا في مجموعة بيانات BSD100 على مهام متعددة للتكبير الصوتي. كما تُظهر نموذجنا قدرة على تحقيق هذا الأداء باستخدام بيانات تدريب أقل وموارد حوسبة أقل، مع الحفاظ على كفاءة عالية في عدد المعاملات مقارنة بالنماذج الرائدة الحالية.