الدمج متعدد المصادر واختيار المتنبئ التلقائي للتمييز بين الكائنات في الفيديو بدون أمثلة سابقة

الموقع والمظهر هما المؤشران الرئيسيان لتقسيم الأشياء في الفيديو. يمكن لمصادر عديدة مثل RGB، العمق، التدفق البصري والبروز الثابت أن توفر معلومات مفيدة عن الأشياء. ومع ذلك، فإن الأساليب الحالية تستفيد فقط من RGB أو من RGB والتدفق البصري معًا. في هذا البحث، نقترح شبكة تكامل متعددة المصادر جديدة لتقسيم الأشياء في الفيديو بدون تعلم مسبق (Zero-Shot Video Object Segmentation). بمساعدة وحدة الانتباه المكاني الذاتي (Interoceptive Spatial Attention Module - ISAM)، يتم تسليط الضوء على الأهمية المكانية لكل مصدر. بالإضافة إلى ذلك، صممنا وحدة تنقية الميزات (Feature Purification Module - FPM) لتصفية الميزات غير المتوافقة بين المصادر. من خلال ISAM وFPM، يتم دمج الميزات المتعددة المصادر بشكل فعال. كما اقترحنا شبكة اختيار التنبؤ التلقائي (Automatic Predictor Selection Network - APS) لاختيار أفضل تنبؤ إما من المنبه البروز الثابت أو المنبه الكائن المتحرك وذلك للحيلولة دون الاعتماد الزائد على النتائج الفاشلة التي تسببها خرائط التدفق البصري ذات الجودة المنخفضة. أظهرت التجارب الواسعة على ثلاثة مقاييس عامة صعبة (أي DAVIS$_{16}$، Youtube-Objects وFBMS) أن النموذج المقترح يحقق أداءً مقنعاً مقابل أفضل الأساليب الحالية. سيتم توفير الشيفرة المصدرية بشكل عام في \textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}.