منذ 7 أشهر

الملخص

التقسيم الكائنات في الفيديو، وكذلك معالجة الفيديو بشكل عام، كان تاريخيًا مهيمنًا على الأساليب التي تعتمد على التوافق الزمني والترابط في الإطارات المتتالية للفيديو. عندما يتم كسر التوافق الزمني فجأة، مثل عند إخفاء كائن أو فقدان بعض الإطارات في تسلسل، يمكن أن تتدهور نتائج هذه الأساليب بشكل كبير أو قد لا تنتج أي نتيجة على الإطلاق. يبحث هذا البحث في النهج المتعامد لمعالجة كل إطار بشكل مستقل، بمعنى آخر تجاهل المعلومات الزمنية. بالتحديد، يتناول مهمة التقسيم شبه المشرف للكائنات في الفيديو: فصل كائن عن الخلفية في الفيديو، مع وجود قناع له في الإطار الأول. نقدم تقنية التقسيم الكائنات في الفيديو ذات اللقطة الواحدة الدلالية (OSVOS-S)، وهي تستند إلى هندسة شبكة عصبية متكررة بالكامل قادرة على نقل المعلومات الدلالية العامة تباعًا، والتي تم تعلمها على ImageNet، إلى مهمة تقسيم المقدمة، وأخيرًا إلى تعلم مظهر كائن واحد مُشَرَّح من سلسلة الاختبار (وبالتالي اللقطة الواحدة). نوضح أن المعلومات الدلالية على مستوى الكيانات، عند دمجها بكفاءة، يمكن أن تحسن بشكل كبير نتائج طريقة OSVOS السابقة لدينا. نقوم بإجراء التجارب على قاعدة بيانات تقسيم الفيديو الحديثتين، مما يظهر أن OSVOS-S هي أسرع وأكثر دقةً بين الطرق الرائدة حاليًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار