HyperAIHyperAI

Command Palette

Search for a command to run...

GKGNet: شبكة تجميع الرتبة ك الأقرب للتصنيف المتعدد للصور

Ruijie Yao Sheng Jin* Lumin Xu Wang Zeng Wentao Liu Chen Qian* Ping Luo Ji Wu

الملخص

التعرف على الصور متعددة العلامات (MLIR) هو مهمة صعبة تهدف إلى التنبؤ بعدة علامات للكائنات في صورة واحدة مع نمذجة العلاقات المعقدة بين العلامات ومناطق الصورة. رغم أن الشبكات العصبية التلافيفية ومتغيرات الرؤية قد نجحت في معالجة الصور كشبكات منتظمة من البكسلات أو القطع، فإن هذه التمثيلات غير مثلى لتقاطع المناطق ذات الاهتمام الغير منتظمة والمنفصلة. في هذا العمل، نقدم أول نموذج تلفيحي رسم بياني كامل، وهو شبكة الجار الأقرب K-مرتّبة بناءً على المجموعات (GKGNet)، والتي تنمذج الروابط بين تم베دينجات العلامات الدلالية والقطع الصورية في هيكل رسم بياني مرنة وموحدة. للتعامل مع الاختلاف في حجم الكائنات المختلفة ولتقاطع المعلومات من عدة زوايا، اقترحنا وحدة KGCN المجموعية للبناء الرسومي الديناميكي وتداول الرسائل. تظهر تجاربنا أن GKGNet يحقق أداءً قياسيًا بأقل تكاليف حسابية بكثير على مجموعات البيانات متعددة العلامات الصعبة مثل MS-COCO وVOC2007. يمكن الوصول إلى الأكواد عبر الرابط: https://github.com/jin-s13/GKGNet.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp