انظر قبل من المطابقة: فهم الحالة مهم في تقسيم كائنات الفيديو

في مجال تقسيم الأشياء في الفيديو (VOS)، أثبتت الطرق القائمة على الذاكرة نتائجًا مثيرة للإعجاب مؤخرًا من خلال استكشاف التطابق الكثيف بين الإطار الحالي والإطارات السابقة لنمذجة السياق على المدى الطويل. ومع ذلك، بسبب نقص قدرة فهم النماذج، تصبح هذه الطرق غالبًا هشة عند التعامل مع التغيرات الكبيرة في المظهر أو الزاوية النسبية التي تنتج عن حركة الأشياء والكاميرات. في هذا البحث، ندعي أن فهم النماذج مهم في VOS، وأن دمجها مع التطابق القائم على الذاكرة يمكن أن يستفيد من التآزر، وهو ما يتوافق بشكل طبيعي مع تعريف مهمة VOS، أي تحديد وتقسيم نماذج الأشياء داخل الفيديو.لتحقيق هذا الهدف، نقدم شبكة ذات فرعين لـ VOS، حيث يقوم الفرع القائم على الاستفسار لتقسيم النماذج (IS) بدراسة تفاصيل النموذج في الإطار الحالي، بينما يقوم الفرع الآخر بتطابق مكاني-زماني مع بنك الذاكرة. نستخدم الاستفسارات المعروفة جيدًا من فرع IS لإدخال المعلومات الخاصة بالنموذج إلى المفتاح الاستفساري، مما يتيح إجراء التطابق المعزز بالنموذج بشكل أكبر. بالإضافة إلى ذلك، قدمنا كتلة دمج متعددة المسارات لدمج بيانات القراءة من الذاكرة مع الخصائص متعددة المقاييس من محودِّر تقسيم النماذج بكفاءة، مما يضم الخصائص الواعية للنموذج عالية الدقة لإنتاج نتائج التقسيم النهائية.طريقتنا تحقق أفضل الأداء الحالي على مجموعات اختبار DAVIS 2016/2017 val (92.6٪ و 87.1٪)، DAVIS 2017 test-dev (82.8٪)، و YouTube-VOS 2018/2019 val (86.3٪ و 86.3٪)، وتتفوق على الأساليب البديلة بمargins واضحة.(请注意:最后一句中的 "margins" 翻译为 "هامش" 或 "Margins"،根据上下文可以理解为性能差距。如果需要更加精确的表达,可以将其翻译为 "فواصل كبيرة" 或者保留英文 "margins" 并在后面加上注释。)为了使最后一句更符合阿拉伯语的表达习惯,可以调整如下:طريقتنا تحقق أفضل الأداء الحالي على مجموعات الاختبار DAVIS 2016/2017 val (92.6٪ و 87.1٪)، DAVIS 2017 test-dev (82.8٪)، و YouTube-VOS 2018/2019 val (86.3٪ و 86.3٪)، وتتفوق على الأساليب البديلة بفواصل كبيرة (margins).