Command Palette
Search for a command to run...
DPIT: مُحَوِّل مُتَكَامِلٌ بِمَسارَيْنِ لِتَحْدِيدِ مَوَاضِعِ الْإِنْسَانِ
DPIT: مُحَوِّل مُتَكَامِلٌ بِمَسارَيْنِ لِتَحْدِيدِ مَوَاضِعِ الْإِنْسَانِ
Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu
الملخص
تهدف تقدير وضعية الإنسان إلى تحديد النقاط المفتاحية لجميع الأشخاص في مشاهد مختلفة. وعلى الرغم من النتائج الواعدة التي تحققها الأساليب الحالية، تواجه هذه الأساليب ما يزال بعض التحديات. تتعامل الأساليب العلوية-السفلية الحالية مع شخص واحد في كل مرة، دون أخذ التفاعل بين الأشخاص المختلفة أو بينهم وبين المشهد الذي يقعون فيه بعين الاعتبار. ونتيجة لذلك، تنخفض أداء كشف الإنسان عند حدوث اكتناز شديد. من ناحية أخرى، تأخذ الأساليب السفلية-العلوية بعين الاعتبار جميع الأشخاص في آن واحد، وتحاول استخلاص المعرفة الشاملة للصورة بأكملها. ومع ذلك، فإنها أقل دقة من الأساليب العلوية-السفلية بسبب التغير في الحجم. ولحل هذه المشكلات، نقترح نموذجًا جديدًا يُسمى "مُحول متكامل ذو خطين مزدوجين" (DPIT)، والذي يدمج خطين علويًا وسفليًا لاستكشاف المعلومات البصرية من مجالات استقبال مختلفة، وتحقيق التكامل بينهما. ويتكون DPIT بشكل محدد من فرعين: الفرع السفلي يتعامل مع الصورة بأكملها لاستخلاص المعلومات البصرية الشاملة، بينما يُستخرج الفرع العلوي تمثيلات الميزات البصرية المحلية من مربع حدودي مخصص لشخص واحد. ثم تُدخل تمثيلات الميزات المستخرجة من الفرعين السفلي والعلي إلى معالج المُحول (transformer encoder) لدمج المعرفة الشاملة والمحليّة بشكل تفاعلي. علاوةً على ذلك، نُعرّف استعلامات النقاط المفتاحية لاستكشاف المعلومات البصرية الخاصة بكل من المشهد الكامل ووضعية الشخص الواحد، بهدف تحقيق التكامل المتبادل بين الخطين. إلى حد معرفتنا، يُعد هذا أحد أولى الدراسات التي تدمج بين الخطين العلوي والسفلي باستخدام المُحولات (transformers) في مجال تقدير وضعية الإنسان. وأظهرت التجارب الواسعة على مجموعتي بيانات COCO وMPII أن نموذج DPIT يحقق أداءً مماثلاً للأساليب الرائدة في مجالها.