HyperAIHyperAI

Command Palette

Search for a command to run...

التفكيك البصري للInstances النهائية باستخدام Transformers

Yuqing Wang Zhaoliang Xu Xinlong Wang Chunhua Shen Baoshan Cheng Hao Shen Huaxia Xia

الملخص

تمثّل مهمة التجزئة البصرية للInstances في الفيديو (VIS) المهمة التي تتطلب في آن واحد تصنيف وتمييز وتعقب كائنات محددة في مقطع فيديو. تُعدّ الطرق الحديثة غالبًا ما تطور خطوط أنابيب معقدة لمعالجة هذه المهمة. وفي هذا العمل، نقترح إطارًا جديدًا لتمييز الفيديو للInstances مبنيًا على نماذج Transformers، يُسمّى VisTR، والذي ينظر إلى مهمة VIS كمشكلة تشفير متوازية مباشرة من الطرفين (end-to-end) لسلسلة التنبؤ. عند إدخال مقطع فيديو يتكون من عدة إطارات صور، يُنتج VisTR تسلسل الأقنعة الخاصة بكل كائن في الفيديو بشكل مباشر ومتسلسل. وتمثّل النواة الأساسية لهذا الإطار استراتيجية جديدة وفعّالة لتوافق تسلسلات الكائنات وتمييزها، حيث تُراقب وتحدد الكائنات على مستوى التسلسل ككل. يُقدّم VisTR رؤية موحدة لتمييز الكائنات وتعقبها من منظور تعلم التشابه، مما يبسط بشكل كبير الخطوط الأنابيب الكلية، ويختلف بشكل كبير عن الطرق الحالية. وبلا أي إضافات معقدة، يحقق VisTR أسرع سرعة بين جميع النماذج الحالية لـ VIS، ويُحقّق أفضل أداء بين الطرق التي تستخدم نموذجًا واحدًا على مجموعة بيانات YouTube-VIS. ولأول مرة، نُظهر إطارًا أبسط وأسرع لتمييز الكائنات في الفيديو مبنيًا على Transformers، ويحقق دقة تنافسية. ونأمل أن يُحفّز VisTR الأبحاث المستقبلية في مجالات أعمق من فهم الفيديو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التفكيك البصري للInstances النهائية باستخدام Transformers | مستندات | HyperAI