HyperAIHyperAI
منذ 3 أشهر

حل المركز الأول لتحدي YouTubeVOS 2021: التصنيف البياني للفيديوهات

Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka
حل المركز الأول لتحدي YouTubeVOS 2021: التصنيف البياني للفيديوهات
الملخص

يُعد تجزئة المُثَلَّثات في الفيديو (VIS) مشكلة متعددة المهام تُنفَّذ فيها الكشف، والتقسيم، والتتبع في آنٍ واحد. ويُمَدَّد هذا النموذج من تطبيقات المجموعة الصورية إلى البيانات المرئية، التي تُضِيف معلومات زمنية إضافية، والتي، إن تم التعامل معها بشكل مناسب، تكون مفيدة جدًا في تحديد وتوقع حركة الكائنات. في هذه الدراسة، نصمم نموذجًا موحدًا يتعلم هذه المهام بشكل متبادل. وبشكل خاص، نقترح وحدتين تُسمَّيان "تجزئة المُثَلَّثات المرتبطة زمنيًا" (TCIS) و"التتبع ثنائي الاتجاه" (BiTrack)، للاستفادة من الارتباط الزمني بين أقنعة الكائنات المُثَلَّثة عبر الإطارات المجاورة. من ناحية أخرى، غالبًا ما تكون بيانات الفيديو متكررة بسبب التداخل بين الإطارات. وتبين تحليلاتنا أن هذه المشكلة شديدة الجدية في مجموعة بيانات YoutubeVOS-VIS2021. لذلك، نقترح آلية تدريب تُسمَّى "التدريب من مصادر متعددة" (MSD) لتخفيف نقص البيانات. وباستخدام هذه التقنيات مع مجموعة من الحيل التقنية (bag of tricks)، يرتفع أداء الشبكة بشكل كبير مقارنةً بالنموذج الأساسي، ويتفوّق على الطرق الأخرى بفارق ملحوظ على مجموعتي بيانات YoutubeVOS-VIS 2019 و2021.