HyperAIHyperAI

Command Palette

Search for a command to run...

الشبكات المرشحة العالمية للتصنيف الصوتي

Yongming Rao Wenliang Zhao Zheng Zhu Jiwen Lu Jie Zhou

الملخص

أظهرت التطورات الأخيرة في نماذج الانتباه الذاتي والشبكات العصبية متعددة الطبقات النقية (MLP) الخاصة بالرؤية إمكانات كبيرة في تحقيق أداء متميز بوجود انحيازات توليدية أقل. وتستند هذه النماذج عمومًا إلى تعلم التفاعل بين المواقع المكانية من البيانات الخام. وتكبر تعقيدات الانتباه الذاتي والـ MLP تربيعياً مع زيادة حجم الصورة، مما يجعل من الصعب توسيع نطاق هذه النماذج عندما تكون الميزات عالية الدقة مطلوبة. في هذه الورقة، نقدّم شبكة المرشح العالمي (GFNet)، وهي معمارية بسيطة مفهومياً وفعالة حسابياً، تتعلم الاعتماديات المكانية الطويلة الأمد في المجال الترددي بتعقيد خطي لوغاريتمي. تعوّض معمارية لدينا طبقة الانتباه الذاتي في نماذج المحولات البصرية (Vision Transformers) بثلاث عمليات رئيسية: تحويل فورييه الثنائي الأبعاد (2D discrete Fourier transform)، وضرب عنصر بعنصر بين ميزات المجال الترددي والمرشحات العالمية القابلة للتعلم، ثم تحويل فورييه العكسي الثنائي الأبعاد (2D inverse Fourier transform). ونُظهر توازناً مفضلاً بين الدقة والتعقيد في نماذجنا على كل من ImageNet والمهام اللاحقة. وتُظهر نتائجنا أن GFNet يمكن أن تكون بديلاً تنافسياً للغاية لنماذج المحولات والشبكات العصبية التلافيفية (CNNs) من حيث الكفاءة وقدرة التعميم والمتانة. يُمكن الوصول إلى الكود من خلال الرابط: https://github.com/raoyongming/GFNet


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp