HyperAIHyperAI

Command Palette

Search for a command to run...

InvPT: متحول الهرم المقلوب متعدد المهام لفهم المشهد الكثيف

Hanrong Ye Dan Xu

الملخص

فهم المشاهد الكثيفة متعددة المهام هو مجال بحث مزدهر يتطلب الإدراك والتفكير المتزامنين في سلسلة من المهام المرتبطة مع التنبؤ بكثافة البكسل. ومع ذلك، فإن معظم الأعمال الحالية تواجه قيودًا شديدة في النمذجة المحلية بسبب الاستخدام الكثيف لعمليات التجميع، بينما يعتبر تعلم التفاعلات والاستدلال في سياق مكاني عالمي ومتعدد المهام أمرًا حاسمًا لهذه المشكلة. في هذا البحث، نقترح طريقة جديدة للتحويل متعدد المهام بنظام الهرم المعكوس (InvPT) لتقوم بالنمذجة المتزامة للمواقع المكانية والمهام المتعددة في إطار موحد. حسب علمنا، هذه هي أول دراسة تستكشف تصميم بنية تحويلية للتنبؤ الكثيف متعدد المهام لفهم المشاهد. بالإضافة إلى ذلك، فقد أثبتت الدراسات بشكل واسع أن زيادة الدقة المكانية تكون مفيدة للغاية للتنبؤات الكثيفة، ولكن من الصعب جدًا على التحويلات الحالية أن تعمل بعمق أكبر مع دقة أعلى بسبب التعقيد الكبير للحجم المكاني الكبير. يقدم InvPT كتلة UP-Transformer فعالة لتعلم التفاعل بين الخصائص متعددة المهام عند زيادة تدريجية في الدقة، والتي تتضمن أيضًا نقل رسائل الانتباه الذاتي الفعال وتجميع الخصائص متعددة المقاييس لإنتاج تنبؤ خاص بالمهمة بدقة عالية. حققت طريقتنا أداءً متعدد المهام متفوقًا على مجموعتي بيانات NYUD-v2 وPASCAL-Context على التوالي، وأفضل بكثير من أفضل الأساليب السابقة. يمكن الحصول على الرمز البرمجي من https://github.com/prismformore/InvPT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp