منذ 2 أشهر

kMaX-DeepLab: k-means مask Transformer

Qihang Yu; Huiyu Wang; Siyuan Qiao; Maxwell Collins; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen

الملخص

ارتفاع استخدام النماذج التحويلية (Transformers) في مهام الرؤية ليس فقط يطور تصاميم العمود الفقري للشبكات العصبية، بل يفتح صفحة جديدة لتحقيق التعرف على الصور من البداية إلى النهاية (مثل الكشف عن الأشياء والتقسيم البانورامي). نشأت هندسة النماذج التحويلية من معالجة اللغة الطبيعية (NLP)، حيث تتكون هذه الهندسة من انتباه ذاتي وانتباه متقاطع، مما يمكنها من تعلم التفاعلات طويلة المدى بين عناصر المتتالية. ومع ذلك، لاحظنا أن معظم النماذج التحويلية الحالية المستخدمة في مهام الرؤية تستعير الفكرة من NLP دون مراعاة الاختلافات الأساسية بين اللغات والصور، خاصة طول المتتالية المكاني للسمات البيكسلية المسطحة بشكل كبير. هذا بدوره يعيق التعلم في الانتباه المتقاطع بين سمات البيكسل والأسئلة المرتبطة بالأشياء. في هذا البحث، نعيد النظر في العلاقة بين البيكسلات والأسئلة المرتبطة بالأشياء ونقترح إعادة صياغة عملية تعلم الانتباه المتقاطع كعملية تجميع. مستوحىً من خوارزمية التجميع التقليدية k-means، قمنا بتطوير k-means Mask Xformer (kMaX-DeepLab) لمهام التقسيم، والتي لا تقتصر فائدتها على تحسين أحدث ما وصل إليه العلم فحسب، بل إنها تتمتع أيضًا بتصميم بسيط وأنيق. نتيجة لذلك، حقق kMaX-DeepLab أداءً جديدًا يعد الأفضل حتى الآن على مجموعة اختبار COCO val بمعدل PQ 58.0٪، وعلى مجموعة اختبار Cityscapes val بمعدل PQ 68.4٪ ومعدل AP 44.0٪ ومعدل mIoU 83.5٪، وعلى مجموعة اختبار ADE20K val بمعدل PQ 50.9٪ ومعدل mIoU 55.2٪ بدون زيادة زمن الاختبار أو استخدام بيانات خارجية. نأمل أن يعمل بحثنا على إلقاء الضوء على تصميم النماذج التحويلية التي تناسب مهام الرؤية بشكل أفضل.رمز البرمجيات والموديلات الخاصة بـ TensorFlow متاحة على الرابط: https://github.com/google-research/deeplab2إعادة تنفيذ PyTorch متاحة أيضًا على الرابط: https://github.com/bytedance/kmax-deeplab