HyperAIHyperAI
منذ 11 أيام

MLTr: التصنيف متعدد العلامات باستخدام المحول

Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen, Zhongyuan Wang, Nian Shi, Honglin Liu
MLTr: التصنيف متعدد العلامات باستخدام المحول
الملخص

يتمثل التحدي في تصنيف الصور متعددة التصنيفات في تحديد جميع العلامات الخاصة بالكائنات المُحتَوَاة في صورة معينة. وعلى الرغم من التقدم المحرز على مدى سنوات، تظل الكائنات الصغيرة، والكائنات المشابهة، والكائنات ذات الاحتمال الشرطي العالي، هي العوائق الرئيسية في النماذج القائمة على الشبكات العصبية التلافيفية (CNN)، نظرًا لقيود قدرة نوى التلافيف على التمثيل. وتستخدم الشبكات الحديثة لمحوّل الرؤية (Vision Transformer) آلية الانتباه الذاتي لاستخراج السمات على مستوى البكسل، مما يُعبّر عن معلومات معنوية محلية غنية، لكنها تُعاني من قلة كفايتها في استخراج الاعتماد المكاني العالمي. في هذا البحث، نُشير إلى ثلاث مشكلات جوهرية تواجهها الأساليب القائمة على الشبكات العصبية التلافيفية، ونستكشف إمكانية استخدام وحدات محول مخصصة لحلها. نُقدّم معمارية محول متعدد التصنيفات (MlTr) مبنية على تقسيم النوافذ، وانتباه البكسل داخل النافذة، وانتباه بين النافذة، حيث تم تحسين الأداء بشكل خاص في مهام تصنيف الصور متعددة التصنيفات. وتُظهر المعمارية المقترحة نتائج رائدة على مجموعة بيانات متعددة التصنيفات الشائعة مثل MS-COCO وPascal-VOC وNUS-WIDE، بتحقيق دقة 88.5% و95.8% و65.5% على التوالي. وسيتم توفير الكود قريبًا على الرابط: https://github.com/starmemda/MlTr/

MLTr: التصنيف متعدد العلامات باستخدام المحول | أحدث الأوراق البحثية | HyperAI