HyperAIHyperAI

Command Palette

Search for a command to run...

SparseSwin: مُحَوِّل Swin مع كتلة مُحَوِّل نادر

Krisna Pinasthika Blessius Sheldo Putra Laksono Riyandi Banovbi Putera Irsal Syifa Hukma Shabiyya Novanto Yudistira

الملخص

أحرزت الأبحاث في مجال الرؤية الحاسوبية تقدماً كبيراً، مما جعل معمارية الترانسفورمر (Transformer) هي الحالة الراهنة (State-of-the-Art) في مهام الرؤية الحاسوبية. ومن بين العيوب المعروفة لمعمارية الترانسفورمر هو العدد الكبير من المعاملات (البارامترات)، ما قد يؤدي إلى خوارزمية أكثر تعقيداً وانعدام الكفاءة. يهدف هذا البحث إلى تقليل عدد المعاملات، وبالتالي جعل الترانسفورمر أكثر كفاءة. نقدّم ما يُعرف بـ "كتلة SparTa" (SparTa Block)، وهي كتلة مُعدّلة من الترانسفورمر تتضمن إضافة محول للرموز النادرة (Sparse Token Converter) يقلل من عدد الرموز (Tokens) المستخدمة. تم استخدام كتلة SparTa داخل معمارية Swin-T (مُسمّاة SparseSwin) للاستفادة من قدرة Swin على تقليل حجم المدخلات (Downsampling) وتقليل عدد الرموز الأولية التي يجب حسابها. أظهر النموذج المقترح SparseSwin أداءً أفضل من النماذج الأخرى ذات الحالة الراهنة في تصنيف الصور، بتحقيق دقة قدرها 86.96% و97.43% و85.35% على مجموعات بيانات ImageNet100 وCIFAR10 وCIFAR100 على التوالي. ورغم عدد المعاملات الأقل، فإن النتائج تُبرز الإمكانات الكبيرة لمعمارية الترانسفورمر التي تعتمد على محول رموز نادر مع عدد محدود من الرموز، وذلك لتحسين استخدام الترانسفورمر وتعزيز أدائه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp