شبكة CNN المكانية-الزمانية لفصل الأشياء في الفيديو

في هذا البحث، نقدم نموذج CNN مكاني-زماني موحد قابل للتدريب من البداية إلى النهاية لفصل الأشياء في الفيديو (VOS)، يتكون من فرعين، وهما: الفرع الزماني المتلاحم والفرع المكاني للتفصيل. تحديداً، يتم تدريب الفرع الزماني المتلاحم بشكل مسبق بطريقة معادية من بيانات الفيديو غير المصنفة، وهو مصمم لالتقاط مؤشرات المظهر الديناميكي وحركة سلسلة الفيديو لتوجيه فصل الأشياء. أما الفرع المكاني للتفصيل فيركز على فصل الأشياء بدقة بناءً على مؤشرات المظهر والحركة التي تم تعلمها. للحصول على نتائج تفصيل دقيقة، نصمم عملية من الخشن إلى الدقيق لتطبيق وحدة الانتباه المصممة تباعاً على خرائط الميزات متعددة المقاييس، ثم ربطها لإنتاج التنبؤ النهائي. بهذه الطريقة، يُجبر الفرع المكاني للتفصيل على التركيز تدريجياً على مناطق الأشياء. يتم ضبط هذين الفرعين بشكل مشترك ومفصل على سلاسل فصل الفيديو بطريقة شاملة من البداية إلى النهاية. تم إجراء عدة تجارب على ثلاثة مجموعات بيانات صعبة (أي DAVIS-2016 وDAVIS-2017 وYouTube-Object) لإظهار أن طريقتنا تحقق أداءً جيداً مقابل أفضل الأساليب الحالية. الرمز البرمجي متاح في https://github.com/longyin880815/STCNN.