الشبكات المرشحة العالمية للتصنيف الصوتي

أظهرت التطورات الأخيرة في نماذج الانتباه الذاتي والشبكات العصبية متعددة الطبقات النقية (MLP) الخاصة بالرؤية إمكانات كبيرة في تحقيق أداء متميز بوجود انحيازات توليدية أقل. وتستند هذه النماذج عمومًا إلى تعلم التفاعل بين المواقع المكانية من البيانات الخام. وتكبر تعقيدات الانتباه الذاتي والـ MLP تربيعياً مع زيادة حجم الصورة، مما يجعل من الصعب توسيع نطاق هذه النماذج عندما تكون الميزات عالية الدقة مطلوبة. في هذه الورقة، نقدّم شبكة المرشح العالمي (GFNet)، وهي معمارية بسيطة مفهومياً وفعالة حسابياً، تتعلم الاعتماديات المكانية الطويلة الأمد في المجال الترددي بتعقيد خطي لوغاريتمي. تعوّض معمارية لدينا طبقة الانتباه الذاتي في نماذج المحولات البصرية (Vision Transformers) بثلاث عمليات رئيسية: تحويل فورييه الثنائي الأبعاد (2D discrete Fourier transform)، وضرب عنصر بعنصر بين ميزات المجال الترددي والمرشحات العالمية القابلة للتعلم، ثم تحويل فورييه العكسي الثنائي الأبعاد (2D inverse Fourier transform). ونُظهر توازناً مفضلاً بين الدقة والتعقيد في نماذجنا على كل من ImageNet والمهام اللاحقة. وتُظهر نتائجنا أن GFNet يمكن أن تكون بديلاً تنافسياً للغاية لنماذج المحولات والشبكات العصبية التلافيفية (CNNs) من حيث الكفاءة وقدرة التعميم والمتانة. يُمكن الوصول إلى الكود من خلال الرابط: https://github.com/raoyongming/GFNet