متحول الانتباه المقنع للتمييز الشامل في الصور

تتعلق تقسيم الصور بتجهيز البكسلات ذات الدلالات المختلفة، مثل العضوية في فئة أو مثال معين، حيث يحدد كل اختيار للدلالات مهمة. بينما تختلف فقط دلالات كل مهمة، فإن الأبحاث الحالية تركز على تصميم هياكل متخصصة لكل مهمة. نقدم Transformer القناع مع الانتباه المقنع (Mask2Former)، وهو هيكل جديد قادر على التعامل مع أي مهمة لتقسيم الصور (بانورامي، أو مثالي، أو دلالي). من أهم مكوناته الانتباه المقنع، الذي يستخرج الخصائص المحلية عن طريق تقييد الانتباه المتبادل داخل المناطق التي تم التنبؤ بها بالقناع. بالإضافة إلى خفض جهد البحث بمقدار لا يقل عن ثلاثة أضعاف، فإنه يتفوق بشكل كبير على أفضل الهياكل المتخصصة في أربع قواعد بيانات شائعة. وأبرز ما في الأمر أن Mask2Former قد حدد مستوى جديد للمعايير الرائدة في تقسيم الصور البانورامية (57.8 PQ على COCO)، وتقسيم الصور المثالي (50.1 AP على COCO) وتقسيم الصور الدلالي (57.7 mIoU على ADE20K).