اكتشاف الأشياء ذاتيًا بدون إشراف في الفيديوهات باستخدام الحركة التحفيزية

في هذا البحث، نتناول مهمة اكتشاف الأشياء دون إشراف في الفيديوهات. وقد أظهرت الدراسات السابقة نتائج واعدة من خلال معالجة التدفقات البصرية لتقسيم الأشياء. ومع ذلك، فإن استخدام التدفق كمدخل يجلب عيبين رئيسيين. أولاً، لا يمكن للتدفق التقاط مؤشرات كافية عندما تظل الأشياء ثابتة أو مغطاة جزئياً. ثانيًا، من الصعب تحقيق التجانس الزمني من مدخل التدفق فقط بسبب فقدان معلومات النسيج. لمعالجة هذه القيود، نقترح نموذجاً لمعالجة الإطارات الملونة (RGB) المتتابعة مباشرة، واستنتاج التدفق البصري بين أي زوج من الإطارات باستخدام تمثيل متعدد الطبقات، مع التعامل مع قنوات الشفافية على أنها التقسيم. بالإضافة إلى ذلك، لفرض استمرارية الأشياء، نطبق خسارة التجانس الزمني على الأقنعة المستنتجة من الإطارات المقترنة عشوائيًا، والتي تشير إلى الحركات بسرعات مختلفة، وتشجع النموذج على تقسيم الأشياء حتى لو لم تتحرك في نقطة الزمان الحالية. تجريبياً، نثبت الأداء المتفوق على أفضل الأساليب السابقة في ثلاثة مجموعات بيانات عامة لتقسيم الفيديو (DAVIS2016، SegTrackv2، و FBMS-59)، مع الحفاظ على الكفاءة الحسابية بتلافي عبء حساب التدفق البصري كمدخل.