HyperAIHyperAI

Command Palette

Search for a command to run...

Query2Label: طريقة بسيطة تعتمد على التحويلة لتصنيف متعدد التصنيفات

Shilong Liu Lei Zhang Xiao Yang Hang Su Jun Zhu

الملخص

يقدم هذا البحث نهجًا بسيطًا وفعالًا لحل مشكلة التصنيف متعدد التصنيفات. يتمحور النهج المقترح حول استخدام مفكّكات المُحَوِّل (Transformer decoders) لاستعلام وجود تسمية فئة. يُستمد استخدام المُحَوِّل من الحاجة إلى استخلاص ميزات تمييزية محلية بشكل تكيفي لكل تسمية مختلفة، وهي خاصية مطلوبة بشدة نظرًا لوجود عدة كائنات في صورة واحدة. يوفر الوحدة المدمجة للانتباه المتقاطع (cross-attention module) في مفكّك المُحَوِّل طريقة فعّالة لاستخدام متجهات التسميات كاستعلامات، لاستقصاء وجمع الميزات المرتبطة بالفئة من خريطة ميزات تم حسابها بواسطة النواة البصرية (vision backbone)، وذلك لاستخدامها في التصنيف الثنائي اللاحق. مقارنةً بالدراسات السابقة، يمتاز الإطار الجديد ببساطته، حيث يعتمد على مُحَوِّلات قياسية ونُوَى بصرية قياسية، كما يتميز بكفاءته العالية، حيث يتفوّق باستمرار على جميع الدراسات السابقة في خمسة مجموعات بيانات للتصنيف متعدد التصنيفات، بما في ذلك MS-COCO وPASCAL VOC وNUS-WIDE وVisual Genome. وبشكل خاص، نجحنا في تحقيق مؤشر mAP قدره 91.3% على MS-COCO. نأمل أن تُشكّل البنية المدمجة، وسهولة التنفيذ، والأداء المتفوّق لهذا النهج قاعدة معيارية قوية للمهام المتعلقة بالتصنيف متعدد التصنيفات والدراسات المستقبلية. ستكون الشفرة المصدرية متاحة قريبًا عبر الرابط: https://github.com/SlongLiu/query2labels.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp