ALBA: التعلم التعزيزي لفصل الأشياء في الفيديو

نعتبر مشكلة الفصل التلقائي للأشياء في الفيديو دون تدريب مسبق (VOS) من المشاكل الصعبة. وهي تتضمن فصل وتتبع عدة أشياء متحركة داخل الفيديو بشكل كامل وآلي، دون أي تهيئة يدوية. نعالج هذه المشكلة كمشكلة تجميع من خلال الاستفادة من اقتراحات الأشياء وإجراء استدلال مشترك حول التجميع في كل من الفضاء والزمان. نقترح هندسة شبكة لتنفيذ اختيار الاقتراحات والتجميع المشترك بطريقة قابلة للتطبيق. وبشكل حاسم، نوضح كيفية تدريب هذه الشبكة باستخدام التعلم التعزيزي حتى تتعلم إجراء سلسلة القرارات المثلى للتجميع غير القاصر على المدى القصير لفصل الفيديو بأكمله. على عكس التقنيات الإشرافية القياسية، فإن هذا أيضًا يمكّننا من تحسين مباشرة المقاييس المستندة إلى التداخل غير القابل للمفاضلة المستخدمة لتقييم VOS. نظهر أن الطريقة المقترحة، والتي نسميها ALBA، تتفوق على الحالة السابقة لأفضل الأداء في ثلاثة مقاييس: DAVIS 2017 [2]، FBMS [20] و Youtube-VOS [27].