OneNet: U-Net ذاتي التقطيع 1D ذاتي التقطيع القنوي

تُستخدم هياكل الرؤية الحاسوبية الحديثة المتقدمة بشكل واسع نموذج U-Net بفضل مرونته وقدرته الفعّالة على استخلاص الميزات. ومع ذلك، فإن التصميم المتعدد الدقة للدوال التلافيفية (convolutional) غالبًا ما يؤدي إلى متطلبات حسابية كبيرة، مما يحد من إمكانية نشرها على الأجهزة الطرفية (edge devices). نقدّم بديلًا مبسطًا: مشغل ترميز خطي (1D convolutional encoder) يحافظ على الدقة مع تعزيز ملاءمته للتطبيقات الطرفية. تحقق البنية المُعدّلة للمرسل من التصنيف الدلالي (semantic segmentation) من خلال عمليات تلافيف خطية (channel-wise 1D convolutions) مدمجة مع عمليات "pixel-unshuffle". وباستخدام تقنية PixelShuffle، المعروفة بتحسين الدقة في مهام تحسين الدقة (super-resolution) وتقليل الحمل الحسابي، يتمكن OneNet من التقاط العلاقات المكانية دون الحاجة إلى التلافيف ثنائية الأبعاد (2D convolutions)، ما يقلل من عدد المعلمات بنسبة تصل إلى 47%. علاوةً على ذلك، نستعرض نموذجًا متكاملًا من نوع 1D (encoder-decoder) يحقق تخفيضًا بنسبة 71% في الحجم، رغم بعض الخسارة في الدقة. وقد قمنا بقياس أداء نهجنا مقابل نماذج U-Net في مهام متعددة لإنشاء الأقنعة (mask-generation)، وبيّننا أنه يحافظ على الدقة بشكل فعّال. وعلى الرغم من تركيزنا على التصنيف الصوتي للصورة، فإن هذه البنية قابلة للتكيف مع تطبيقات تلافيفية أخرى. يمكن الوصول إلى كود المشروع عبر الرابط: https://github.com/shbyun080/OneNet.