الانتباه ثنائي النموذج لفصل الكائنات في الفيديو بدون إشراف

يهدف التجزئة غير المراقبة للكائنات في الفيديو (VOS) إلى الكشف عن تجزئة أكثر الأشياء بروزًا في مقاطع الفيديو. teknikat الرئيسية المستخدمة في VOS غير المراقبة هي: 1) التعاون بين معلومات المظهر والحركة؛ و2) الاندماج الزمني بين الإطارات المختلفة. يقترح هذا البحث آليتين جديدتين للانتباه تعتمدان على النماذج الأولية، وهما الانتباه بين الوسائط (IMA) والانتباه بين الإطارات (IFA)، لدمج هذه التقنيات من خلال الانتشار الكثيف عبر الوسائط والإطارات المختلفة. تقوم IMA بدمج المعلومات السياقية من الوسائط المختلفة بشكل كثيف بناءً على تحسين متبادل. أما IFA فتقوم بحقن السياق العالمي للفيديو في الإطار الاستعلامي، مما يمكّن من استغلال الخصائص المفيدة من عدة إطارات بشكل كامل. تظهر نتائج التجارب على قواعد بيانات الاختبار العامة أن النهج المقترح يتفوق على جميع الأساليب الموجودة بمقدار كبير. كما تم التحقق الشامل من المكونين المقترحين عبر دراسة تقليصية (ablation study).