HyperAIHyperAI

Command Palette

Search for a command to run...

M3TR: التعرف متعدد الوسائط متعدد التصنيفات باستخدام المحول

Jia Li Yifan Zhao Jiawei Zhao

الملخص

تهدف التعرف على الصور متعددة التصنيفات إلى التعرف على عدة كائنات في صورة واحدة في آنٍ واحد. وقد ركزت الأفكار الحديثة لحل هذه المشكلة على تعلم الاعتماديات بين التصنيفات المتزامنة لتعزيز التمثيلات الشكلية العليا. ومع ذلك، غالبًا ما تتجاهل هذه الطرق العلاقات المهمة الهيكلية البصرية الذاتية، وتواجه صعوبات في فهم العلاقات السياقية. لبناء النطاق الشامل للسياق البصري، بالإضافة إلى التفاعلات بين الوسائط البصرية واللغوية، نقترح نموذج M3TR (Transformers متعددة الوسائط متعددة التصنيفات) الذي يعتمد على تعلم العلاقات الثلاثية بين الوسائط المختلفة والداخلية. بالنسبة للعلاقة داخل الوسائط، نُجري اتحادًا ذكيًا بين الشبكات العصبية التلافيفية (CNNs) ونماذج Transformers، بحيث يتم دمج الهياكل البصرية في الميزات العليا من خلال تعلم الانتباه المتبادل الشكلي. ولبناء التفاعلات بين الوسائط البصرية واللغوية، نقترح انتباهًا لغويًا متبادلًا لدمج المعلومات اللغوية حسب الفئة في عملية تعلم الهياكل البصرية، ثم نقدّم وحدة تعزيز موجهة لغويًا لتعزيز تمثيلات المعاني العليا. تُظهر الأدلة التجريبية أن مُعامل التعلم التعاوني للعلاقات الثلاثية يُمكن لنموذج M3TR المقترح تحقيق أفضل النتائج المُحققة حتى الآن على معيارين عامين للتصنيف متعدد التصنيفات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp