HyperAIHyperAI

Command Palette

Search for a command to run...

حل المركز الأول لتحدي YouTubeVOS 2021: التصنيف البياني للفيديوهات

Thuy C. Nguyen Tuan N. Tang Nam LH. Phan Chuong H. Nguyen Masayuki Yamazaki Masao Yamanaka

الملخص

يُعد تجزئة المُثَلَّثات في الفيديو (VIS) مشكلة متعددة المهام تُنفَّذ فيها الكشف، والتقسيم، والتتبع في آنٍ واحد. ويُمَدَّد هذا النموذج من تطبيقات المجموعة الصورية إلى البيانات المرئية، التي تُضِيف معلومات زمنية إضافية، والتي، إن تم التعامل معها بشكل مناسب، تكون مفيدة جدًا في تحديد وتوقع حركة الكائنات. في هذه الدراسة، نصمم نموذجًا موحدًا يتعلم هذه المهام بشكل متبادل. وبشكل خاص، نقترح وحدتين تُسمَّيان "تجزئة المُثَلَّثات المرتبطة زمنيًا" (TCIS) و"التتبع ثنائي الاتجاه" (BiTrack)، للاستفادة من الارتباط الزمني بين أقنعة الكائنات المُثَلَّثة عبر الإطارات المجاورة. من ناحية أخرى، غالبًا ما تكون بيانات الفيديو متكررة بسبب التداخل بين الإطارات. وتبين تحليلاتنا أن هذه المشكلة شديدة الجدية في مجموعة بيانات YoutubeVOS-VIS2021. لذلك، نقترح آلية تدريب تُسمَّى "التدريب من مصادر متعددة" (MSD) لتخفيف نقص البيانات. وباستخدام هذه التقنيات مع مجموعة من الحيل التقنية (bag of tricks)، يرتفع أداء الشبكة بشكل كبير مقارنةً بالنموذج الأساسي، ويتفوّق على الطرق الأخرى بفارق ملحوظ على مجموعتي بيانات YoutubeVOS-VIS 2019 و2021.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp