InvPT: متحول الهرم المقلوب متعدد المهام لفهم المشهد الكثيف

فهم المشاهد الكثيفة متعددة المهام هو مجال بحث مزدهر يتطلب الإدراك والتفكير المتزامنين في سلسلة من المهام المرتبطة مع التنبؤ بكثافة البكسل. ومع ذلك، فإن معظم الأعمال الحالية تواجه قيودًا شديدة في النمذجة المحلية بسبب الاستخدام الكثيف لعمليات التجميع، بينما يعتبر تعلم التفاعلات والاستدلال في سياق مكاني عالمي ومتعدد المهام أمرًا حاسمًا لهذه المشكلة. في هذا البحث، نقترح طريقة جديدة للتحويل متعدد المهام بنظام الهرم المعكوس (InvPT) لتقوم بالنمذجة المتزامة للمواقع المكانية والمهام المتعددة في إطار موحد. حسب علمنا، هذه هي أول دراسة تستكشف تصميم بنية تحويلية للتنبؤ الكثيف متعدد المهام لفهم المشاهد. بالإضافة إلى ذلك، فقد أثبتت الدراسات بشكل واسع أن زيادة الدقة المكانية تكون مفيدة للغاية للتنبؤات الكثيفة، ولكن من الصعب جدًا على التحويلات الحالية أن تعمل بعمق أكبر مع دقة أعلى بسبب التعقيد الكبير للحجم المكاني الكبير. يقدم InvPT كتلة UP-Transformer فعالة لتعلم التفاعل بين الخصائص متعددة المهام عند زيادة تدريجية في الدقة، والتي تتضمن أيضًا نقل رسائل الانتباه الذاتي الفعال وتجميع الخصائص متعددة المقاييس لإنتاج تنبؤ خاص بالمهمة بدقة عالية. حققت طريقتنا أداءً متعدد المهام متفوقًا على مجموعتي بيانات NYUD-v2 وPASCAL-Context على التوالي، وأفضل بكثير من أفضل الأساليب السابقة. يمكن الحصول على الرمز البرمجي من https://github.com/prismformore/InvPT