شبكة تمثيل دلالي متعددة الطبقات للتصنيف الصوتي متعدد التصنيفات

تصنيف الصور متعدد التصنيفات (MLIC) هو مهمة أساسية وعملية، وتهدف إلى تعيين علامات متعددة محتملة لصورة واحدة. في السنوات الأخيرة، تم اقتراح العديد من النماذج القائمة على الشبكات العصبية التلافيفية العميقة (CNN) التي تُنظِّم العلاقات بين العلامات لاستكشاف المعاني المرتبطة بالعلامات وتعلم تمثيلات معنوية للصور. تُقدِّم هذه الورقة تقدماً في هذا الاتجاه البحثي من خلال تحسين نمذجة العلاقات بين العلامات وتحسين تعلم التمثيلات المعنوية. من ناحية، وبالإضافة إلى المعاني المحلية لكل علامة، نقترح استكشاف المعاني العالمية المشتركة بين عدة علامات. ومن ناحية أخرى، تركز النماذج الحالية على تعلم التمثيلات المعنوية في الطبقة التلافيفية الأخيرة من الشبكة العصبية. لكن من الملاحظ أن تمثيلات الصور في الطبقات المختلفة للشبكة العصبية تلتقط مستويات أو مقاييس مختلفة من السمات، ولها قدرات تمييزية مختلفة. لذلك، نقترح تعلم التمثيلات المعنوية في عدة طبقات تلافيفية. ولتحقيق ذلك، تم تصميم شبكة تمثيل معنوي متعدد الطبقات (MSRN)، التي تستكشف المعاني المحلية والعالمية للعلامات من خلال نمذجة العلاقات بينها، وتستخدم المعاني المعنوية للعلامات لتوجيه تعلم التمثيلات المعنوية عبر طبقات متعددة باستخدام آلية انتباه. أظهرت التجارب الواسعة على أربع مجموعات بيانات معيارية، تشمل VOC 2007 وCOCO وNUS-WIDE وApparel، أداءً تنافسياً للشبكة المُقترحة MSRN مقارنةً بالنماذج الرائدة في مجالها.