MambaVision: هيكل أساسي هجين مبني على Mamba و Transformer للرؤية الحاسوبية

نُقدِّم خلفية هجينة جديدة من نوع Mamba-Transformer، تُسمَّى MambaVision، والتي صُمِّمت خصيصًا لتطبيقات الرؤية الحاسوبية. وتشمل مساهمتنا الأساسية إعادة تصميم صيغة Mamba لتعزيز قدرتها على نمذجة ميزات بصرية بكفاءة. بالإضافة إلى ذلك، نُجري دراسة تحليلية شاملة حول جدوى دمج نماذج Transformers للرؤية (ViT) مع Mamba. وتُظهر نتائجنا أن تزويد بنية Mamba بعدد من كتل الانتباه الذاتي (self-attention) في الطبقات النهائية يُحسِّن بشكل كبير قدرتها على النمذجة، مما يمكِّنها من التقاط الاعتماديات الفضائية على المدى الطويل. استنادًا إلى هذه النتائج، نقدِّم سلسلة من نماذج MambaVision ذات بنية هرمية لتلبية معايير تصميم مختلفة. وفي مهام التصنيف الصوتي على مجموعة بيانات ImageNet-1K، تحقق نماذج MambaVision تقدمًا جديدًا في مستوى الأداء (SOTA) من حيث دقة التصنيف (Top-1) وسرعة معالجة الصور (image throughput). كما تتفوّق نماذج MambaVision على الخلفيات المماثلة في الحجم في المهام التطبيقية مثل الكشف عن الكائنات، والتقسيم الحديدي (instance segmentation)، والتقسيم الدلالي (semantic segmentation) على مجموعتي بيانات MS COCO وADE20K، وتمتاز بأداء أكثر تفوقًا. الكود: https://github.com/NVlabs/MambaVision.