MinVIS: إطار عمل تجزئة المُثَلَّثات الفيديوية الأدنى دون تدريب مبني على الفيديو

نُقدّم MinVIS، وهي إطار عمل مُبسط لتصنيف الفيديو للInstances (VIS) يحقق أداءً متفوّقًا على مستوى الحد الأقصى في VIS دون الحاجة إلى هياكل أو إجراءات تدريب تعتمد على الفيديو. من خلال تدريب نموذج لتصنيف Instances في الصور يعتمد على الاستفسارات فقط، يتفوّق MinVIS على النتيجة الأفضل السابقة على مجموعة بيانات Occluded VIS الصعبة بفارق أكثر من 10% في مقياس AP. وبما أن MinVIS يعامل الإطارات في مقاطع الفيديو التدريبية على أنها صور مستقلة، يمكننا تقليل عينة الإطارات المُعلّمة بشكل كبير دون الحاجة لأي تعديلات. وباستخدام فقط 1% من الإطارات المُعلّمة، يتفوّق MinVIS أو يُقاس بقوة مع الأطراف المُتقدمة المُدرّبة بكامل التدريب على مجموعتي بيانات YouTube-VIS 2019/2021. ملاحظتنا الأساسية هي أن الاستفسارات التي تُدرّب لتكون مميزة بين الكائنات داخل الإطار الواحد تكون متسقة زمنيًا، ويمكن استخدامها لتتبع الكائنات دون الحاجة إلى أي قواعد يدوية مصممة مسبقًا. وبالتالي، يتبع MinVIS المقطع التالي في التقييم: نقوم أولاً بتطبيق النموذج المدرب القائم على الاستفسارات لتصنيف Instances في الصور على إطارات الفيديو بشكل منفصل. ثم يتم تتبع الكائنات المُصنفة من خلال تطبيق التطابق الثنائي على الاستفسارات المقابلة. يتم هذا التقييم بطريقة مباشرة (online) ولا يتطلب معالجة كامل الفيديو دفعة واحدة. وبذلك، يتمتع MinVIS بمزايا عملية مهمة، مثل تقليل تكاليف التصنيف ومتطلبات الذاكرة، دون التضحية بأداء VIS. الكود متاح على: https://github.com/NVlabs/MinVIS