الملخص

في هذا البحث، نقدم مهمة جديدة في مجال رؤية الحاسوب تُسمى تقسيم الفيديو إلى حالات (Video Instance Segmentation). هدف هذه المهمة الجديدة هو الكشف والتقسيم وتتبع الحالات في الفيديوهات بشكل متزامن. بعبارة أخرى، هذه هي المرة الأولى التي يتم فيها توسيع مشكلة تقسيم الصور إلى حالات إلى مجال الفيديو. لتسهيل البحوث حول هذه المهمة الجديدة، اقترحنا معيارًا كبيرًا يُسمى YouTube-VIS، يتكون من 2883 فيديو عالي الدقة من يوتيوب، ومجموعة تصنيف تتضمن 40 فئة و131 ألف قناع جودة عالية للحالات. بالإضافة إلى ذلك، اقترحنا خوارزمية جديدة تُسمى MaskTrack R-CNN لهذه المهمة. طريقة جديدة تقدمنا بها تضيف فرع تتبع جديد إلى Mask R-CNN لأداء مهام الكشف والتقسيم والتتبع بشكل متزامن. أخيرًا، قمنا بتقييم الطريقة المقترحة والعديد من القواعد الأساسية القوية على مجموعة البيانات الجديدة الخاصة بنا. النتائج التجريبية توضح بوضوح مزايا الخوارزمية المقترحة وكشفت عن رؤى لتحسينات مستقبلية. نعتقد أن مهمة تقسيم الفيديو إلى حالات ستحفز المجتمع على الاستمرار في البحث حول فهم الفيديو.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار