HyperAIHyperAI

Command Palette

Search for a command to run...

BoxVIS: التجزئة الزمنية للInstances باستخدام تسميات الصناديق

Minghan Li Lei Zhang

الملخص

من المكلف للغاية ويتطلب جهدًا كبيرًا تسمية قناع الكائنات بكامل بكسلات الفيديو. ونتيجة لذلك، يكون عدد التسميات البكسلية في مجموعات بيانات التجزئة البصرية للInstances في الفيديو (VIS) الحالية صغيرة جدًا، مما يحد من قدرة النماذج المدربة على التعميم. أما الحل البديل، فهو أرخص بكثير، يتمثل في استخدام المستطيلات المحيطة (Bounding Boxes) لتسمية الكائنات في الفيديو. مستوحى من النجاح الأخير في التجزئة الصورية للInstances المدعومة بالمستطيلات، نُعدّل النماذج الرائدة المدعومة بالبكسلات في مجال VIS لتصبح مدعومة بالمستطيلات، ونُطلق عليها نموذج Baseline للـ BoxVIS، ونلاحظ تدهورًا طفيفًا في الأداء. ومن ثم، نقترح تحسين أداء BoxVIS من جهتين. أولاً، نقترح خسارة موجهة بمركز المستطيل (STPA) لتحسين التماسك المكاني والزمني في توقع قناعات الكائنات. ثانيًا، نقوم بجمع مجموعة بيانات أكبر حجمًا مُسمّاة بالمستطيلات (BVISD)، من خلال دمج مقاطع الفيديو من معايير VIS الحالية، وتحويل الصور من مجموعة بيانات COCO إلى مقاطع فيديو افتراضية قصيرة. وباستخدام BVISD المقترحة وخسارة STPA، يحقق نموذج BoxVIS المدرب لدينا أداءً بنسبة 43.2% و29.0% من AP للقناع على مجموعتي التحقق من YouTube-VIS 2021 وOVIS على التوالي. ويُظهر أداءً مماثلاً في توقع قناعات الكائنات، مع قدرة تعميم أفضل مقارنةً بالنماذج الرائدة المدعومة بالبكسلات، مع استخدام 16% فقط من وقت التسمية والتكلفة. يمكن العثور على الكود والبيانات في: \url{https://github.com/MinghanLi/BoxVIS}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp