HyperAIHyperAI
منذ 16 أيام

M3TR: التعرف متعدد الوسائط متعدد التصنيفات باستخدام المحول

{Jia Li, Yifan Zhao, Jiawei Zhao}
الملخص

تهدف التعرف على الصور متعددة التصنيفات إلى التعرف على عدة كائنات في صورة واحدة في آنٍ واحد. وقد ركزت الأفكار الحديثة لحل هذه المشكلة على تعلم الاعتماديات بين التصنيفات المتزامنة لتعزيز التمثيلات الشكلية العليا. ومع ذلك، غالبًا ما تتجاهل هذه الطرق العلاقات المهمة الهيكلية البصرية الذاتية، وتواجه صعوبات في فهم العلاقات السياقية. لبناء النطاق الشامل للسياق البصري، بالإضافة إلى التفاعلات بين الوسائط البصرية واللغوية، نقترح نموذج M3TR (Transformers متعددة الوسائط متعددة التصنيفات) الذي يعتمد على تعلم العلاقات الثلاثية بين الوسائط المختلفة والداخلية. بالنسبة للعلاقة داخل الوسائط، نُجري اتحادًا ذكيًا بين الشبكات العصبية التلافيفية (CNNs) ونماذج Transformers، بحيث يتم دمج الهياكل البصرية في الميزات العليا من خلال تعلم الانتباه المتبادل الشكلي. ولبناء التفاعلات بين الوسائط البصرية واللغوية، نقترح انتباهًا لغويًا متبادلًا لدمج المعلومات اللغوية حسب الفئة في عملية تعلم الهياكل البصرية، ثم نقدّم وحدة تعزيز موجهة لغويًا لتعزيز تمثيلات المعاني العليا. تُظهر الأدلة التجريبية أن مُعامل التعلم التعاوني للعلاقات الثلاثية يُمكن لنموذج M3TR المقترح تحقيق أفضل النتائج المُحققة حتى الآن على معيارين عامين للتصنيف متعدد التصنيفات.

M3TR: التعرف متعدد الوسائط متعدد التصنيفات باستخدام المحول | أحدث الأوراق البحثية | HyperAI