HyperAIHyperAI

Command Palette

Search for a command to run...

MambaVision: هيكل أساسي هجين مبني على Mamba و Transformer للرؤية الحاسوبية

Ali Hatamizadeh Jan Kautz

الملخص

نُقدِّم خلفية هجينة جديدة من نوع Mamba-Transformer، تُسمَّى MambaVision، والتي صُمِّمت خصيصًا لتطبيقات الرؤية الحاسوبية. وتشمل مساهمتنا الأساسية إعادة تصميم صيغة Mamba لتعزيز قدرتها على نمذجة ميزات بصرية بكفاءة. بالإضافة إلى ذلك، نُجري دراسة تحليلية شاملة حول جدوى دمج نماذج Transformers للرؤية (ViT) مع Mamba. وتُظهر نتائجنا أن تزويد بنية Mamba بعدد من كتل الانتباه الذاتي (self-attention) في الطبقات النهائية يُحسِّن بشكل كبير قدرتها على النمذجة، مما يمكِّنها من التقاط الاعتماديات الفضائية على المدى الطويل. استنادًا إلى هذه النتائج، نقدِّم سلسلة من نماذج MambaVision ذات بنية هرمية لتلبية معايير تصميم مختلفة. وفي مهام التصنيف الصوتي على مجموعة بيانات ImageNet-1K، تحقق نماذج MambaVision تقدمًا جديدًا في مستوى الأداء (SOTA) من حيث دقة التصنيف (Top-1) وسرعة معالجة الصور (image throughput). كما تتفوّق نماذج MambaVision على الخلفيات المماثلة في الحجم في المهام التطبيقية مثل الكشف عن الكائنات، والتقسيم الحديدي (instance segmentation)، والتقسيم الدلالي (semantic segmentation) على مجموعتي بيانات MS COCO وADE20K، وتمتاز بأداء أكثر تفوقًا. الكود: https://github.com/NVlabs/MambaVision.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp