Query2Label: طريقة بسيطة تعتمد على التحويلة لتصنيف متعدد التصنيفات

يقدم هذا البحث نهجًا بسيطًا وفعالًا لحل مشكلة التصنيف متعدد التصنيفات. يتمحور النهج المقترح حول استخدام مفكّكات المُحَوِّل (Transformer decoders) لاستعلام وجود تسمية فئة. يُستمد استخدام المُحَوِّل من الحاجة إلى استخلاص ميزات تمييزية محلية بشكل تكيفي لكل تسمية مختلفة، وهي خاصية مطلوبة بشدة نظرًا لوجود عدة كائنات في صورة واحدة. يوفر الوحدة المدمجة للانتباه المتقاطع (cross-attention module) في مفكّك المُحَوِّل طريقة فعّالة لاستخدام متجهات التسميات كاستعلامات، لاستقصاء وجمع الميزات المرتبطة بالفئة من خريطة ميزات تم حسابها بواسطة النواة البصرية (vision backbone)، وذلك لاستخدامها في التصنيف الثنائي اللاحق. مقارنةً بالدراسات السابقة، يمتاز الإطار الجديد ببساطته، حيث يعتمد على مُحَوِّلات قياسية ونُوَى بصرية قياسية، كما يتميز بكفاءته العالية، حيث يتفوّق باستمرار على جميع الدراسات السابقة في خمسة مجموعات بيانات للتصنيف متعدد التصنيفات، بما في ذلك MS-COCO وPASCAL VOC وNUS-WIDE وVisual Genome. وبشكل خاص، نجحنا في تحقيق مؤشر mAP قدره 91.3% على MS-COCO. نأمل أن تُشكّل البنية المدمجة، وسهولة التنفيذ، والأداء المتفوّق لهذا النهج قاعدة معيارية قوية للمهام المتعلقة بالتصنيف متعدد التصنيفات والدراسات المستقبلية. ستكون الشفرة المصدرية متاحة قريبًا عبر الرابط: https://github.com/SlongLiu/query2labels.