HyperAIHyperAI

Command Palette

Search for a command to run...

Vision GNN: صورة تساوي رسمًا بيانيًا من العقد

Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu

الملخص

تلعب البنية الشبكية دورًا محوريًا في نظام الرؤية الحاسوبية القائم على التعلم العميق. يعامل الشبكة العصبية التلافيفية الشائعة الاستخدام والـ Transformer الصورة كهيكل شبكي أو تسلسلي، وهو ما يفتقر إلى المرونة اللازمة لاستخلاص الكائنات غير المنتظمة والمعقدة. في هذا البحث، نقترح تمثيل الصورة كهيكل رسم بياني، ونقدّم معمارية جديدة للرؤية تُعرف بـ ViG (Vision GNN) لاستخراج الميزات على مستوى الرسم البياني للمهام البصرية. نبدأ بتقسيم الصورة إلى عدد من اللوحات (patches)، والتي تُعتبر عُقدًا، ثم نبني رسمًا بيانيًا من خلال ربط الجيران الأقرب. وباستنادًا إلى تمثيل الصورة كرسم بياني، نُنشئ نموذج ViG لتحويل وتبادل المعلومات بين جميع العُقد. يتكون ViG من وحدتين أساسيتين: وحدة Grapher التي تعتمد على التصفية الرسومية (graph convolution) لجمع وتحديث معلومات الرسم البياني، ووحدة FFN التي تعتمد على طبقتين خطيتين لتحويل ميزات العقد. تم بناء نسختين من البنية: نسخة متماثلة (isotropic) ونسخة هرمية (pyramid)، بمقاييس مختلفة للنموذج. أظهرت التجارب الواسعة في مهام التعرف على الصور والكشف عن الكائنات تفوق البنية المقترحة ViG. نأمل أن يُعد هذا البحث الرائد في تطبيق الشبكات الرسومية (GNN) على المهام البصرية العامة مصدر إلهام وخبرة مفيدة للبحث المستقبلي. يُمكن الاطلاع على كود PyTorch عبر الرابط: https://github.com/huawei-noah/Efficient-AI-Backbones، كما يُتاح كود MindSpore عبر الرابط: https://gitee.com/mindspore/models.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Vision GNN: صورة تساوي رسمًا بيانيًا من العقد | مستندات | HyperAI