PolyphonicFormer: التعلم الموحد للاستعلامات لتقسيم الفيديو البانورامي بوعي العمق

التفريق البصري المدرك للعمق في الفيديو (DVPS) هو مشكلة رؤية جديدة وصعبة تهدف إلى التنبؤ بالتفريق البصري الشامل والعمق في الفيديو بشكل متزامن. العمل السابق يحل هذه المهمة من خلال توسيع طريقة التفريق البصري الشاملة الحالية بإضافة رأس تنبؤ كثيف بالعمق ومتابعة الأشياء. ومع ذلك، لم يتم استكشاف العلاقة بين العمق والتفريق البصري الشامل بشكل جيد -- فدمج الأساليب الحالية ببساطة يؤدي إلى المنافسة ويحتاج إلى موازنة الأوزان بعناية. في هذا البحث، نقدم PolyphonicFormer، وهو متحول بصري لتوحيد هذه المهام الفرعية تحت مهمة DVPS وتحقيق نتائج أكثر ثباتًا. الرؤية الرئيسية لدينا هي أن العمق يمكن أن يتناغم مع التفريق البصري الشامل من خلال النموذج الجديد المقترح لدينا للتنبؤ بخرائط العمق على مستوى الأشياء باستخدام استعلامات الكائنات. ثم يتم استكشاف العلاقة بين المهمتين من خلال التعلم القائم على الاستعلامات. من خلال التجارب، نوضح فوائد تصميمنا من جوانب التقدير العمقي والتفريق البصري الشامل. بما أن كل استعلام "شيء" يحتوي أيضًا على معلومات على مستوى الأشياء، فمن الطبيعي إجراء المتابعة مباشرة باستخدام التعلم الظاهري. طرقنا تحقق أفضل النتائج في مجموعتي بيانات DVPS (Semantic KITTI، Cityscapes)، وتتصدر المرتبة الأولى في تحدي BMTT لـ ICCV-2021 للمتابعة البصرية + العمق. يمكن الوصول إلى الكود عبر الرابط: https://github.com/HarborYuan/PolyphonicFormer .