التصنيف متعدد التصنيفات مع تداخل الرسم البياني للوسوم

تتضمن الصور أو الفيديوهات دائمًا كائنات أو أفعال متعددة. وقد أظهر التعرف متعدد التصنيفات أداءً متميزًا بفضل التطور السريع في تقنيات التعلم العميق. في الآونة الأخيرة، تم استخدام الشبكات التلافيفية الرسومية (GCN) لتعزيز أداء التعرف متعدد التصنيفات. ومع ذلك، لا يزال غير واضح ما هو أفضل أسلوب لنمذجة الارتباطات بين التصنيفات، وكيف يمكن تحسين تعلم الميزات مع مراعاة نظام التصنيفات. في هذا البحث، نقترح إطارًا لفرض الرسم البياني للتصنيفات (Label Graph Superimposing) لتحسين الإطار التقليدي المبني على GCN + CNN المُطور للتعرف متعدد التصنيفات من ناحيتين رئيسيتين. أولاً، نُمَثّل الارتباطات بين التصنيفات من خلال دمج الرسم البياني للتصنيفات المُنشأ بناءً على معلومات التكرار المشترك الإحصائي في الرسم البياني المُنشأ من المعرفة المسبقة حول التصنيفات، ثم نطبّق عمليات التلافيف الرسومي متعددة الطبقات على الرسم البياني النهائي الناتج عن هذا التداخل لاستخلاص تمثيلات التصنيفات (Label Embedding). ثانيًا، نقترح استخدام تمثيل النظام الكامل للتصنيفات لتحسين تعلم التمثيلات. وعلى وجه التحديد، نُضيف اتصالات جانبية بين الشبكة التلافيفية الرسومية (GCN) والشبكة التلافيفية العميقة (CNN) في الطبقات السطحية والمتوسطة والعميقة، بهدف دمج معلومات نظام التصنيفات في الشبكة الأساسية (Backbone CNN) لتعزيز الوعي بالتصنيفات أثناء عملية تعلم الميزات. أجرينا تجارب واسعة على مجموعتي بيانات MS-COCO وCharades، وأظهرت النتائج أن الحل المقترح يُحسّن بشكل كبير من أداء التعرف، ويحقق أداءً جديدًا على مستوى الحد الأقصى (State-of-the-art) في التعرف.