التفصيل التعاوني للكائنات المرئية من خلال دمج المقدمة والخلفية بمقياس متعدد

يقوم هذا البحث بدراسة مبادئ تعلم التضمين لمعالجة مشكلة تقسيم الأشياء في الفيديو شبه المشرف عليها. على عكس الممارسات السابقة التي تركز على استكشاف تعلم التضمين للأشياء في المقدمة، نعتبر أن الخلفية يجب معاملتها بنفس القدر من الأهمية. لذلك، نقترح نهجًا جديدًا يُعرف بتقسيم الأشياء في الفيديو بالتعاون من خلال دمج المقدمة والخلفية (CFBI). يعمل CFBI على فصل تضمين الميزات إلى منطقة الشيء في المقدمة ومنطقة الخلفية المرتبطة بها، مما يعزز بشكل ضمني التباين بينهما ويحسن نتائج التقسيم وفقًا لذلك. بالإضافة إلى ذلك، يقوم CFBI بعمليات مطابقة على مستوى البكسل وآليات انتباه على مستوى الحالة بين التسلسل المرجعي والتسلسل المتوقع، مما يجعله قويًا أمام مختلف أحجام الأشياء. بناءً على CFBI، نقدم هيكل مطابقة متعدد المقاييس ونقترح استراتيجية مطابقة موسعة (Atrous Matching)، مما يؤدي إلى إطار عمل أكثر قوة وكفاءة، وهو CFBI+. أجرينا تجارب واسعة النطاق على مقعدين شائعين للمعايير، وهما DAVIS و YouTube-VOS. بدون استخدام أي بيانات محاكاة للتدريب الأولي، حقق CFBI+ أداءً (J&F) بنسبة 82.9% و 82.8%,تفوق جميع الأساليب الرائدة الأخرى. الكود: https://github.com/z-x-yang/CFBI.注意:在最后一句中,“82.9% و 82.8%”后面的逗号在阿拉伯文中应为分号或直接省略。以下是修正后的版本:يقوم هذا البحث بدراسة مبادئ تعلم التضمين لمعالجة مشكلة تقسيم الأشياء في الفيديو شبه المشرف عليها. على عكس الممارسات السابقة التي تركز على استكشاف تعلم التضمين للأشياء في المقدمة، نعتبر أن الخلفية يجب معاملتها بنفس القدر من الأهمية. لذلك، نقترح نهجًا جديدًا يُعرف بتقسيم الأشياء في الفيديو بالتعاون من خلال دمج المقدمة والخلفية (CFBI). يعمل CFBI على فصل تضمين الميزات إلى منطقة الشيء في المقدمة ومنطقة الخلفية المرتبطة بها، مما يعزز بشكل ضمني التباين بينهما ويحسن نتائج التقسيم وفقًا لذلك. بالإضافة إلى ذلك، يقوم CFBI بعمليات مطابقة على مستوى البكسل وآليات انتباه على مستوى الحالة بين التسلسل المرجعي والتسلسل المتوقع، مما يجعله قويًا أمام مختلف أحجام الأشياء. بناءً على CFBI، نقدم هيكل مطابقة متعدد المقاييس ونقترح استراتيجية مطابقة موسعة (Atrous Matching)، مما يؤدي إلى إطار عمل أكثر قوة وكفاءة، وهو CFBI+. أجرينا تجارب واسعة النطاق على مقعدين شائعين للمعايير، وهما DAVIS و YouTube-VOS. بدون استخدام أي بيانات محاكاة للتدريب الأولي، حقق CFBI+ أداءً (J&F) بنسبة 82.9% و 82.8%؛ تفوق جميع الأساليب الرائدة الأخرى. الكود: https://github.com/z-x-yang/CFBI.