SparseSwin: مُحَوِّل Swin مع كتلة مُحَوِّل نادر

أحرزت الأبحاث في مجال الرؤية الحاسوبية تقدماً كبيراً، مما جعل معمارية الترانسفورمر (Transformer) هي الحالة الراهنة (State-of-the-Art) في مهام الرؤية الحاسوبية. ومن بين العيوب المعروفة لمعمارية الترانسفورمر هو العدد الكبير من المعاملات (البارامترات)، ما قد يؤدي إلى خوارزمية أكثر تعقيداً وانعدام الكفاءة. يهدف هذا البحث إلى تقليل عدد المعاملات، وبالتالي جعل الترانسفورمر أكثر كفاءة. نقدّم ما يُعرف بـ "كتلة SparTa" (SparTa Block)، وهي كتلة مُعدّلة من الترانسفورمر تتضمن إضافة محول للرموز النادرة (Sparse Token Converter) يقلل من عدد الرموز (Tokens) المستخدمة. تم استخدام كتلة SparTa داخل معمارية Swin-T (مُسمّاة SparseSwin) للاستفادة من قدرة Swin على تقليل حجم المدخلات (Downsampling) وتقليل عدد الرموز الأولية التي يجب حسابها. أظهر النموذج المقترح SparseSwin أداءً أفضل من النماذج الأخرى ذات الحالة الراهنة في تصنيف الصور، بتحقيق دقة قدرها 86.96% و97.43% و85.35% على مجموعات بيانات ImageNet100 وCIFAR10 وCIFAR100 على التوالي. ورغم عدد المعاملات الأقل، فإن النتائج تُبرز الإمكانات الكبيرة لمعمارية الترانسفورمر التي تعتمد على محول رموز نادر مع عدد محدود من الرموز، وذلك لتحسين استخدام الترانسفورمر وتعزيز أدائه.