منذ 8 أشهر

الملخص

تلعب البنية الشبكية دورًا محوريًا في نظام الرؤية الحاسوبية القائم على التعلم العميق. يعامل الشبكة العصبية التلافيفية الشائعة الاستخدام والـ Transformer الصورة كهيكل شبكي أو تسلسلي، وهو ما يفتقر إلى المرونة اللازمة لاستخلاص الكائنات غير المنتظمة والمعقدة. في هذا البحث، نقترح تمثيل الصورة كهيكل رسم بياني، ونقدّم معمارية جديدة للرؤية تُعرف بـ ViG (Vision GNN) لاستخراج الميزات على مستوى الرسم البياني للمهام البصرية. نبدأ بتقسيم الصورة إلى عدد من اللوحات (patches)، والتي تُعتبر عُقدًا، ثم نبني رسمًا بيانيًا من خلال ربط الجيران الأقرب. وباستنادًا إلى تمثيل الصورة كرسم بياني، نُنشئ نموذج ViG لتحويل وتبادل المعلومات بين جميع العُقد. يتكون ViG من وحدتين أساسيتين: وحدة Grapher التي تعتمد على التصفية الرسومية (graph convolution) لجمع وتحديث معلومات الرسم البياني، ووحدة FFN التي تعتمد على طبقتين خطيتين لتحويل ميزات العقد. تم بناء نسختين من البنية: نسخة متماثلة (isotropic) ونسخة هرمية (pyramid)، بمقاييس مختلفة للنموذج. أظهرت التجارب الواسعة في مهام التعرف على الصور والكشف عن الكائنات تفوق البنية المقترحة ViG. نأمل أن يُعد هذا البحث الرائد في تطبيق الشبكات الرسومية (GNN) على المهام البصرية العامة مصدر إلهام وخبرة مفيدة للبحث المستقبلي. يُمكن الاطلاع على كود PyTorch عبر الرابط: https://github.com/huawei-noah/Efficient-AI-Backbones، كما يُتاح كود MindSpore عبر الرابط: https://gitee.com/mindspore/models.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار