HyperAIHyperAI

Command Palette

Search for a command to run...

MLTr: التصنيف متعدد العلامات باستخدام المحول

Xing Cheng Hezheng Lin Xiangyu Wu Fan Yang Dong Shen Zhongyuan Wang Nian Shi Honglin Liu

الملخص

يتمثل التحدي في تصنيف الصور متعددة التصنيفات في تحديد جميع العلامات الخاصة بالكائنات المُحتَوَاة في صورة معينة. وعلى الرغم من التقدم المحرز على مدى سنوات، تظل الكائنات الصغيرة، والكائنات المشابهة، والكائنات ذات الاحتمال الشرطي العالي، هي العوائق الرئيسية في النماذج القائمة على الشبكات العصبية التلافيفية (CNN)، نظرًا لقيود قدرة نوى التلافيف على التمثيل. وتستخدم الشبكات الحديثة لمحوّل الرؤية (Vision Transformer) آلية الانتباه الذاتي لاستخراج السمات على مستوى البكسل، مما يُعبّر عن معلومات معنوية محلية غنية، لكنها تُعاني من قلة كفايتها في استخراج الاعتماد المكاني العالمي. في هذا البحث، نُشير إلى ثلاث مشكلات جوهرية تواجهها الأساليب القائمة على الشبكات العصبية التلافيفية، ونستكشف إمكانية استخدام وحدات محول مخصصة لحلها. نُقدّم معمارية محول متعدد التصنيفات (MlTr) مبنية على تقسيم النوافذ، وانتباه البكسل داخل النافذة، وانتباه بين النافذة، حيث تم تحسين الأداء بشكل خاص في مهام تصنيف الصور متعددة التصنيفات. وتُظهر المعمارية المقترحة نتائج رائدة على مجموعة بيانات متعددة التصنيفات الشائعة مثل MS-COCO وPascal-VOC وNUS-WIDE، بتحقيق دقة 88.5% و95.8% و65.5% على التوالي. وسيتم توفير الكود قريبًا على الرابط: https://github.com/starmemda/MlTr/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp