HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف متعدد العلامات مع قاموس مفتوح باستخدام محكّم ثنائي النمط على الخصائص البصرية-النصية المُحاذاة

Shichao Xu; Yikang Li; Jenhao Hsiao; Chiuman Ho; Zhu Qi

الملخص

في مجال رؤية الحاسوب، تعتبر مهام التعرف على العلامات المتعددة مهمةً ذات أهمية كبيرة ولها العديد من التطبيقات في العالم الحقيقي، ولكن تصنيف العلامات التي لم يتم رؤيتها من قبل لا يزال تحديًا كبيرًا. في هذا البحث، نقترح خوارزمية جديدة تُسمى "المصنف الثنائي المتماثل للوسائط" (Aligned Dual moDality ClaSsifier - ADDS)، والتي تشمل محول ثنائي الوسائط (Dual-Modal decoder - DM-decoder) مع تماثل بين الخصائص البصرية والنصية لمهام تصنيف العلامات المتعددة بمعجم مفتوح. ثم نصمم طريقة بسيطة ومعتبرة فعالة تُسمى "النقل الهرمي" (Pyramid-Forwarding) لتعزيز الأداء للمدخلات ذات الدقة العالية. بالإضافة إلى ذلك، يتم تطبيق الإشراف اللغوي الانتقائي لتعزيز أداء النموذج بشكل أكبر. أجريت تجارب واسعة النطاق على عدة مقاييس قياسية، وهي NUS-WIDE وImageNet-1k وImageNet-21k وMS-COCO، وقد أظهرت هذه التجارب أن نهجنا يتفوق بشكل كبير على الأساليب السابقة ويقدم أداءً رائدًا في تصنيف العلامات المتعددة بمعجم مفتوح، وكذلك في تصنيف العلامات المتعددة التقليدي وفي حالة متطرفة تُسمى "تصنيف علامة واحدة إلى علامات متعددة" حيث يتم اختبار النماذج التي تم تدريبها على مجموعات بيانات تحتوي على علامة واحدة (مثل ImageNet-1k وImageNet-21k) على مجموعات بيانات تحتوي على علامات متعددة (مثل MS-COCO وNUS-WIDE).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp