الاهتمام بما أنت عليه: إشراف الذكاء الاصطناعي على الانتباه الذاتي للكشف عن النقاط الرئيسية والربط بين الحالات المعروفة

يقدم هذا البحث طريقة جديدة لحل مشكلة الكشف عن النقاط الرئيسية (keypoint detection) وربط المثيلات (instance association) باستخدام تقنية الترانسفورمر (Transformer). بالنسبة للنماذج المستخدمة في تقدير وضعية الأشخاص المتعددين من الأسفل إلى الأعلى (bottom-up multi-person pose estimation models)، فإنها تحتاج إلى كشف النقاط الرئيسية وتعلم المعلومات المرتبطة بين هذه النقاط. نعتقد أن هذه المشكلات يمكن حلها بالكامل بواسطة الترانسفورمر. بوجه خاص، فإن الانتباه الذاتي (self-attention) في الترانسفورمر يقيس الارتباطات بين أي زوج من المواقع، مما يمكنه من توفير معلومات ارتباطية لتصنيف النقاط الرئيسية. ومع ذلك، فإن أنماط الانتباه الأولية لا تزال غير خاضعة للرقابة الموضوعية، وبالتالي لا يوجد ضمان بأن النقاط الرئيسية ستركز دائمًا على المثيلات التي تنتمي إليها. لمعالجة هذا الأمر، نقترح نهجًا جديدًا لإشراف الانتباه الذاتي في الكشف عن نقاط الأشخاص المتعددين وربط المثيلات. من خلال استخدام أقنعة المثيلات (instance masks) لإشراف الانتباه الذاتي ليكون على دراية بالمثيلات (instance-aware)، يمكننا تعيين النقاط الرئيسية المحصلة إلى مثيلاتها المناسبة بناءً على درجات الانتباه الثنائية، دون الحاجة إلى استخدام حقول المتجهات التعويضية أو التضمين مثل النماذج القائمة على الشبكات العصبية التلافيفية (CNN-based bottom-up models). فائدة إضافية لمETHODتنا هي أنه يمكن الحصول مباشرة على نتائج تقسيم المثيلات للأفراد بأي عدد من مصفوفة الانتباه الخاضعة للإشراف، مما يبسط عملية تعيين البكسل. تظهر التجارب التي أجريت على تحدي كشف نقاط الأشخاص المتعددين في مجموعة بيانات COCO وعلى مهمة تقسيم المثيلات الشخصية فعالية وبساطة الطريقة المقترحة وتوضح طريقة واعدة لضبط سلوك الانتباه الذاتي لأغراض معينة.