HyperAIHyperAI
منذ 2 أشهر

GKGNet: شبكة تجميع الرتبة ك الأقرب للتصنيف المتعدد للصور

Yao, Ruijie ; Jin, Sheng ; Xu, Lumin ; Zeng, Wang ; Liu, Wentao ; Qian, Chen ; Luo, Ping ; Wu, Ji
GKGNet: شبكة تجميع الرتبة ك الأقرب للتصنيف المتعدد للصور
الملخص

التعرف على الصور متعددة العلامات (MLIR) هو مهمة صعبة تهدف إلى التنبؤ بعدة علامات للكائنات في صورة واحدة مع نمذجة العلاقات المعقدة بين العلامات ومناطق الصورة. رغم أن الشبكات العصبية التلافيفية ومتغيرات الرؤية قد نجحت في معالجة الصور كشبكات منتظمة من البكسلات أو القطع، فإن هذه التمثيلات غير مثلى لتقاطع المناطق ذات الاهتمام الغير منتظمة والمنفصلة. في هذا العمل، نقدم أول نموذج تلفيحي رسم بياني كامل، وهو شبكة الجار الأقرب K-مرتّبة بناءً على المجموعات (GKGNet)، والتي تنمذج الروابط بين تم베دينجات العلامات الدلالية والقطع الصورية في هيكل رسم بياني مرنة وموحدة. للتعامل مع الاختلاف في حجم الكائنات المختلفة ولتقاطع المعلومات من عدة زوايا، اقترحنا وحدة KGCN المجموعية للبناء الرسومي الديناميكي وتداول الرسائل. تظهر تجاربنا أن GKGNet يحقق أداءً قياسيًا بأقل تكاليف حسابية بكثير على مجموعات البيانات متعددة العلامات الصعبة مثل MS-COCO وVOC2007. يمكن الوصول إلى الأكواد عبر الرابط: https://github.com/jin-s13/GKGNet.

GKGNet: شبكة تجميع الرتبة ك الأقرب للتصنيف المتعدد للصور | أحدث الأوراق البحثية | HyperAI