HyperAIHyperAI
منذ 2 أشهر

SipMask: حفظ المعلومات المكانية للتقسيم السريع للمؤشرات في الصور والفيديوهات

Jiale Cao; Rao Muhammad Anwer; Hisham Cholakkal; Fahad Shahbaz Khan; Yanwei Pang; Ling Shao
SipMask: حفظ المعلومات المكانية للتقسيم السريع للمؤشرات في الصور والفيديوهات
الملخص

لقد اكتسبت نماذج التقطيع الشاهدية ذات المرحلة الواحدة شعبية مؤخرًا بسبب سرعتها وبساطتها، لكنها لا تزال متأخرة في الدقة مقارنة بنماذج المرحلتين. نقترح طريقة سريعة للتقطيع الشاهدي ذو المرحلة الواحدة تُسمى SipMask، والتي تحتفظ بمعلومات المكان الخاصة بكل شاهد من خلال فصل تنبؤ القناع لكل شاهد إلى مناطق فرعية مختلفة داخل الصندوق الحدودي المكتشف. إسهامنا الرئيسي هو وحدة حفظ المكان الخفيفة والجديدة (Spatial Preservation - SP) التي تولد مجموعة من معاملات المكان لكل منطقة فرعية داخل الصندوق الحدودي، مما يؤدي إلى تحسين تنبؤات القناع. كما أنها تمكن من تحديد حدود دقيقة للشاهدين المجاورين مكانياً. بالإضافة إلى ذلك، نقدم خسارة وزنية لمحاذاة القناع ونظام محاذاة الميزات لتحسين الارتباط بين تنبؤ القناع وكشف الكائن. على مجموعة اختبار COCO test-dev، يتفوق SipMask على النماذج الموجودة ذات المرحلة الواحدة. بالمقارنة مع أحدث نموذج واحد المرحلة TensorMask، يحقق SipMask زيادة مطلقة قدرها 1.0% (في دقة القناع AP) مع توفير زيادة في السرعة بأربع مرات. فيما يتعلق بالقدرات الزمنية الحقيقية، يتفوق SipMask على YOLACT بزيادة مطلقة قدرها 3.0% (في دقة القناع AP) تحت إعدادات مشابهة، بينما يعمل بسرعة مماثلة على بطاقة Titan Xp. كما قمنا بتقييم SipMask للتقطيع الشاهدي الفيديو الزمني الحقيقي، حيث حققنا نتائج واعدة على مجموعة بيانات YouTube-VIS. يمكن الوصول إلى الكود المصدر من الرابط: https://github.com/JialeCao001/SipMask.

SipMask: حفظ المعلومات المكانية للتقسيم السريع للمؤشرات في الصور والفيديوهات | أحدث الأوراق البحثية | HyperAI