التقسيم الصوتي للصور متعدد التسميات باستخدام الشبكات التلافيفية الرسومية المُعدّلة (ML-AGCN)
{Djamila Aouada Oyebade Oyedotun Enjie Ghorbel Inder Pal Singh}
الملخص
في هذه الورقة، يتم تقديم نهج جديد قائمة على الرسوم البيانية لتصنيف الصور متعدد التصنيفات يُسمى الشبكة العصبية التكيفية للرسم البياني متعدد التصنيفات (ML-AGCN). وقد أظهرت الطرق القائمة على الرسوم البيانية إمكانات كبيرة في مجال التصنيف متعدد التصنيفات. ومع ذلك، فإن هذه النماذج تُحدِّد بشكل تجريبي هيكل الرسم البياني لتمثيل الاعتماد بين التصنيفات، وهو ما قد لا يكون الأفضل. ولحل هذه المشكلة، نقترح تعلُّم هيكل الرسم البياني بطريقة نهائية (end-to-end). وبشكل محدد، ندمج آلية قائمة على الانتباه لتقدير الأهمية الزوجية بين العقد في الرسم البياني، وآلية قائمة على التشابه لحفظ التشابه في السمات بين العقد المختلفة. وهذا يوفر طريقة أكثر مرونة لتمثيل الرسم البياني بشكل تكيفي. وتم عرض النتائج التجريبية على مجموعتي بيانات شهيرتين، وهما MS-COCO وVG-500. وتُظهر النتائج أن ML-AGCN يتفوّق على أحدث الطرق المُعلَّمة، مع تقليل عدد معاملات النموذج.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| multi-label-image-classification-on-mscoco | ML-AGCN | mean average precision: 86.9 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.