HyperAIHyperAI
منذ 2 أشهر

الانتباه الموجه للفتحة لتقسيم الأشياء في الفيديو بدون إشراف

Minhyeok Lee; Suhwan Cho; Dogyoon Lee; Chaewon Park; Jungho Lee; Sangyoun Lee
الانتباه الموجه للفتحة لتقسيم الأشياء في الفيديو بدون إشراف
الملخص

يهدف التقطيع غير المشرف للكائنات في الفيديو إلى فصل الكائن الأكثر بروزًا في سلسلة الفيديو. ومع ذلك، فإن وجود خلفيات معقدة وعديد من الكائنات في المقدمة يجعل هذه المهمة صعبة. لمعالجة هذا المشكل، نقترح استخدام شبكة الانتباه المرشدة بالفواصل (Guided Slot Attention Network) لتعزيز المعلومات الهيكلية المكانية والحصول على فصل أفضل بين المقدمة والخلفية. يتم تكرار تحسين الفواصل الأمامية والخلفية، التي يتم تهيئتها بشكل أولي باستخدام الإرشاد الاستفساري (Query Guidance)، بناءً على التفاعلات مع المعلومات القالبية (Template Information). علاوة على ذلك، من أجل تحسين التفاعل بين الفواصل والمعلومات القالبية ودمج الخصائص العالمية والمحلية بكفاءة في الإطارات المستهدفة والمراجع، تم تقديم مرشح أقرب الجيران K (K-Nearest Neighbors Filtering) ومتحول جمع الخصائص (Feature Aggregation Transformer). يحقق النموذج المقترح أداءً متفوقًا على حالتي بيانات شهيرتين. بالإضافة إلى ذلك، نثبت صلابة النموذج المقترح في المشاهد الصعبة من خلال العديد من التجارب المقارنة.

الانتباه الموجه للفتحة لتقسيم الأشياء في الفيديو بدون إشراف | أحدث الأوراق البحثية | HyperAI