الانتباه الموجه للفتحة لتقسيم الأشياء في الفيديو بدون إشراف

يهدف التقطيع غير المشرف للكائنات في الفيديو إلى فصل الكائن الأكثر بروزًا في سلسلة الفيديو. ومع ذلك، فإن وجود خلفيات معقدة وعديد من الكائنات في المقدمة يجعل هذه المهمة صعبة. لمعالجة هذا المشكل، نقترح استخدام شبكة الانتباه المرشدة بالفواصل (Guided Slot Attention Network) لتعزيز المعلومات الهيكلية المكانية والحصول على فصل أفضل بين المقدمة والخلفية. يتم تكرار تحسين الفواصل الأمامية والخلفية، التي يتم تهيئتها بشكل أولي باستخدام الإرشاد الاستفساري (Query Guidance)، بناءً على التفاعلات مع المعلومات القالبية (Template Information). علاوة على ذلك، من أجل تحسين التفاعل بين الفواصل والمعلومات القالبية ودمج الخصائص العالمية والمحلية بكفاءة في الإطارات المستهدفة والمراجع، تم تقديم مرشح أقرب الجيران K (K-Nearest Neighbors Filtering) ومتحول جمع الخصائص (Feature Aggregation Transformer). يحقق النموذج المقترح أداءً متفوقًا على حالتي بيانات شهيرتين. بالإضافة إلى ذلك، نثبت صلابة النموذج المقترح في المشاهد الصعبة من خلال العديد من التجارب المقارنة.