HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز بين الحالات في الفيديو دون استخدام القناع

Lei Ke Martin Danelljan Henghui Ding Yu-Wing Tai Chi-Keung Tang Fisher Yu

الملخص

التطور الحديث في تقسيم الحالات الفيديوية (VIS) قد تم بشكل كبير بفضل استخدام نماذج مبنية على المتحولات (Transformers) أعمق وأكثر جوعًا للبيانات. ومع ذلك، فإن تسمية الأقنعة الفيديوية هي عملية مرهقة وغالية الثمن، مما يحد من حجم ومتنوعية قواعد البيانات الحالية لتقسيم الحالات الفيديوية. في هذا العمل، نهدف إلى إزالة متطلب تسمية الأقنعة. نقترح طريقة MaskFreeVIS، التي تحقق أداءً تنافسيًا عاليًا في تقسيم الحالات الفيديوية باستخدام فقط تسميات الصناديق الحدودية للحالة الكائنية. نستفيد من القيود الزمنية الغنية للاستقرار القناع في الفيديوهات من خلال تقديم خسارة KNN-الشظايا الزمنية (TK-Loss)، والتي توفر رقابة قوية على الأقنعة دون أي تسميات. تقوم خسارتنا الزمنية KNN-الشظايا بإيجاد مطابقات واحدة إلى العديد عبر الإطارات، من خلال خطوة مطابقة شظايا فعالة تليها اختيار K-أقرب جارٍ. ثم يتم فرض خسارة الاستقرار على المطابقات المكتشفة. هدفنا الخالي من الأقنعة سهل التنفيذ، ليس له أي معاملات قابلة للتدريب، وهو كفوء حسابيًا، ومع ذلك فإنه يتفوق على الأساليب الأساسية التي تستعمل، مثل التدفق البصري الأكثر حداثة لفرض استقرار القناع الزمني. نحن نتحقق من صحة MaskFreeVIS على مقاييس YouTube-VIS 2019/2021 وOVIS وBDD100K MOTS. تظهر النتائج بوضوح فعالية طرقنا عن طريق تقليص الفجوة بشكل كبير بين أداء تقسيم الحالات الفيديوية بالرقابة الكاملة والرقابة الضعيفة. كودنا والنماذج المدربة متاحة على https://github.com/SysCV/MaskFreeVis.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp