Command Palette
Search for a command to run...
Vision GNN: صورة تساوي رسمًا بيانيًا من العقد
Vision GNN: صورة تساوي رسمًا بيانيًا من العقد
Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu
الملخص
تلعب البنية الشبكية دورًا محوريًا في نظام الرؤية الحاسوبية القائم على التعلم العميق. يعامل الشبكة العصبية التلافيفية الشائعة الاستخدام والـ Transformer الصورة كهيكل شبكي أو تسلسلي، وهو ما يفتقر إلى المرونة اللازمة لاستخلاص الكائنات غير المنتظمة والمعقدة. في هذا البحث، نقترح تمثيل الصورة كهيكل رسم بياني، ونقدّم معمارية جديدة للرؤية تُعرف بـ ViG (Vision GNN) لاستخراج الميزات على مستوى الرسم البياني للمهام البصرية. نبدأ بتقسيم الصورة إلى عدد من اللوحات (patches)، والتي تُعتبر عُقدًا، ثم نبني رسمًا بيانيًا من خلال ربط الجيران الأقرب. وباستنادًا إلى تمثيل الصورة كرسم بياني، نُنشئ نموذج ViG لتحويل وتبادل المعلومات بين جميع العُقد. يتكون ViG من وحدتين أساسيتين: وحدة Grapher التي تعتمد على التصفية الرسومية (graph convolution) لجمع وتحديث معلومات الرسم البياني، ووحدة FFN التي تعتمد على طبقتين خطيتين لتحويل ميزات العقد. تم بناء نسختين من البنية: نسخة متماثلة (isotropic) ونسخة هرمية (pyramid)، بمقاييس مختلفة للنموذج. أظهرت التجارب الواسعة في مهام التعرف على الصور والكشف عن الكائنات تفوق البنية المقترحة ViG. نأمل أن يُعد هذا البحث الرائد في تطبيق الشبكات الرسومية (GNN) على المهام البصرية العامة مصدر إلهام وخبرة مفيدة للبحث المستقبلي. يُمكن الاطلاع على كود PyTorch عبر الرابط: https://github.com/huawei-noah/Efficient-AI-Backbones، كما يُتاح كود MindSpore عبر الرابط: https://gitee.com/mindspore/models.