YouTube-VOS: تجزئة الأشياء في الفيديو من تسلسل إلى تسلسل

تعلم الميزات المكانية-الزمنية طويلة الأجل هو أمر حاسم لعديد من مهام تحليل الفيديو. ومع ذلك، تعتمد معظم طرق تقسيم الفيديو الحالية بشكل أساسي على تقنيات تقسيم الصور الثابتة، وتعتبر الطرق التي تلتقط الارتباط الزمني لتقسيم الفيديو بحاجة إلى الاعتماد على نماذج التدفق البصري المدربة مسبقًا، مما يؤدي إلى حلول غير مثلى للمشكلة. يعتبر التعلم المتسلسل من النهاية إلى النهاية لاستكشاف الميزات المكانية-الزمنية لتقسيم الفيديو محدودًا بشكل كبير بسبب حجم قواعد البيانات المتاحة لتقسيم الفيديو، أي أن حتى أكبر قاعدة بيانات لتقسيم الفيديو تحتوي فقط على 90 مقطع فيديو قصير. للتعامل مع هذه المشكلة، قمنا بإنشاء قاعدة بيانات جديدة ومقياسية كبيرة لتقسيم أشياء الفيديو تُعرف باسم مجموعة بيانات تقسيم أشياء فيديوهات يوتيوب (YouTube-VOS). تحتوي مجموعتنا على 3,252 مقطع فيديو من يوتيوب و78 فئة تشمل الأشياء الشائعة والأنشطة البشرية. تعد هذه القاعدة البيانات حتى الآن أكبر مجموعة بيانات لتقسيم أشياء الفيديو على حد علمنا وقد تم إطلاقها على https://youtube-vos.org. بناءً على هذه القاعدة البيانات، نقترح شبكة متسلسلة جديدة من النهاية إلى النهاية تستغل المعلومات المكانية-الزمنية طويلة الأجل في مقاطع الفيديو بشكل كامل لغرض التقسيم. نثبت أن طريقتنا قادرة على تحقيق أفضل النتائج في مجموعة اختبار YouTube-VOS وأداءً مشابهًا لمجموعة DAVIS 2016 بالمقارنة مع أفضل الطرق الحالية. تظهر التجارب أن قاعدة البيانات ذات الحجم الكبير هي بالفعل عامل رئيسي لنجاح نموذجنا.