HyperAIHyperAI

Command Palette

Search for a command to run...

PolyphonicFormer: التعلم الموحد للاستعلامات لتقسيم الفيديو البانورامي بوعي العمق

Haobo Yuan Xiangtai Li Yibo Yang Guangliang Cheng Jing Zhang Yunhai Tong Lefei Zhang Dacheng Tao

الملخص

التفريق البصري المدرك للعمق في الفيديو (DVPS) هو مشكلة رؤية جديدة وصعبة تهدف إلى التنبؤ بالتفريق البصري الشامل والعمق في الفيديو بشكل متزامن. العمل السابق يحل هذه المهمة من خلال توسيع طريقة التفريق البصري الشاملة الحالية بإضافة رأس تنبؤ كثيف بالعمق ومتابعة الأشياء. ومع ذلك، لم يتم استكشاف العلاقة بين العمق والتفريق البصري الشامل بشكل جيد -- فدمج الأساليب الحالية ببساطة يؤدي إلى المنافسة ويحتاج إلى موازنة الأوزان بعناية. في هذا البحث، نقدم PolyphonicFormer، وهو متحول بصري لتوحيد هذه المهام الفرعية تحت مهمة DVPS وتحقيق نتائج أكثر ثباتًا. الرؤية الرئيسية لدينا هي أن العمق يمكن أن يتناغم مع التفريق البصري الشامل من خلال النموذج الجديد المقترح لدينا للتنبؤ بخرائط العمق على مستوى الأشياء باستخدام استعلامات الكائنات. ثم يتم استكشاف العلاقة بين المهمتين من خلال التعلم القائم على الاستعلامات. من خلال التجارب، نوضح فوائد تصميمنا من جوانب التقدير العمقي والتفريق البصري الشامل. بما أن كل استعلام "شيء" يحتوي أيضًا على معلومات على مستوى الأشياء، فمن الطبيعي إجراء المتابعة مباشرة باستخدام التعلم الظاهري. طرقنا تحقق أفضل النتائج في مجموعتي بيانات DVPS (Semantic KITTI، Cityscapes)، وتتصدر المرتبة الأولى في تحدي BMTT لـ ICCV-2021 للمتابعة البصرية + العمق. يمكن الوصول إلى الكود عبر الرابط: https://github.com/HarborYuan/PolyphonicFormer .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp