HyperAIHyperAI

Command Palette

Search for a command to run...

مُعالجة الميزات المكانية ودمج الزمنية لتحقيق التجزئة الفعّالة للInstances في الفيديو من مرحلة واحدة

Minghan Li Shuai Li Lida Li Lei Zhang

الملخص

تُعاني الشبكات الحديثة ذات المرحلة الواحدة لتصنيف المُثَلَّثات الفيديوية من قيودتين رئيسيتين. أولاً، لا تكون السمات التلافيفية مُتوافقة مع صناديق الإسناد (anchor boxes) ولا مع صناديق الحقيقة الأساسية (ground-truth bounding boxes)، مما يقلل من حساسية القناع (mask) تجاه الموقع المكاني. ثانيًا، يتم تقسيم الفيديو مباشرة إلى إطارات فردية لتنفيذ التصنيف على مستوى الإطار، مما يتجاهل الارتباط الزمني بين الإطارات المجاورة. ولحل هاتين المشكلتين، نقترح إطارًا فعّالًا وبسيطًا لتصنيف المُثَلَّثات الفيديوية ذات المرحلة الواحدة من خلال التصحيح المكاني والدمج الزمني، يُسمى STMask. لضمان التصحيح المكاني للسمات مع صناديق الحقيقة الأساسية، نقوم أولاً بتوقع صناديق تُعدّل (regressed bounding boxes) حول صناديق الحقيقة الأساسية، ثم نستخرج السمات من هذه الصناديق لتنفيذ التصنيف على مستوى الإطار. ولاستكشاف الارتباط الزمني بين إطارات الفيديو بشكل أعمق، ندمج وحدة دمج زمنيّة (temporal fusion module) لاستخلاص قوالب الكائنات (instance masks) من كل إطار إلى الإطارات المجاورة، مما يُسهم في تمكين إطارنا من التعامل مع مقاطع فيديو صعبة مثل الضباب الحركي (motion blur)، والاختفاء الجزئي (partial occlusion)، والوضعيات غير العادية بين الكائنات والكاميرا. أظهرت التجارب على مجموعة التحقق من YouTube-VIS أن STMask المقترح باستخدام هيكل أساسي من نوع ResNet-50/-101 يحقق 33.5٪ / 36.8٪ من دقة قناع التصنيف (mask AP)، مع تحقيق معدل 28.6 / 23.4 إطارًا في الثانية (FPS) في تصنيف المُثَلَّثات الفيديوية. تم إصدار الكود عبر الإنترنت على الرابط: https://github.com/MinghanLi/STMask.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُعالجة الميزات المكانية ودمج الزمنية لتحقيق التجزئة الفعّالة للInstances في الفيديو من مرحلة واحدة | مستندات | HyperAI