HyperAIHyperAI
منذ 2 أشهر

UniVS: توحيد وiversal تقسيم الفيديو باستخدام العبارات كاستعلامات

Minghan Li; Shuai Li; Xindong Zhang; Lei Zhang
UniVS: توحيد وiversal تقسيم الفيديو باستخدام العبارات كاستعلامات
الملخص

رغم التقدم الأخير في مجال تقسيم الصور الموحد (IS)، لا يزال تطوير نموذج تقسيم الفيديو الموحد (VS) يشكل تحديًا. هذا يعود بشكل أساسي إلى أن مهام تقسيم الفيديو المحددة بالفئات العامة تحتاج إلى كشف جميع الأشياء وتتبعها عبر الإطارات المتتالية، بينما تتطلب مهام تقسيم الفيديو التي توجه بالدلالات إعادة تحديد الهدف باستخدام دلالات بصرية/نصية على طول الفيديو بأكمله، مما يجعل من الصعب التعامل مع المهام المختلفة باستخدام نفس البنية. نحاول معالجة هذه القضايا ونقدم بنية جديدة لتقسيم الفيديو الموحد، وهي UniVS، وذلك من خلال استخدام الدلالات كاستعلامات. تقوم UniVS بحساب متوسط خصائص الدلالة للهدف من الإطارات السابقة واستخدامه كاستعلام أولي لفك شفرة الأقنعة بشكل صريح، كما تدخل طبقة انتباه متقاطع خاصة بالهدف في فك شفرة الأقنعة لدمج خصائص الدلالة في حوض الذاكرة. عن طريق استخدام أقنعة الكيانات المتوقعة من الإطارات السابقة كدلائل بصرية لها، تقوم UniVS بتحويل المهام المختلفة لتقسيم الفيديو إلى تقسيم هدف موجه بالدلالات، مما يزيل عملية التوافق بين الإطارات التي تعتمد على التجربة والخطأ. إطارنا ليس فقط يوحد المهام المختلفة لتقسيم الفيديو بل أيضًا يحقق التدريب والاختبار الشاملين بشكل طبيعي، مما يضمن الأداء القوي في السيناريوهات المختلفة. تظهر UniVS توازنًا جديرًا بالثناء بين الأداء والشمولية في 10 مقاييس صعبة لتقسيم الفيديو، والتي تغطي مهام تقسيم النماذج الفردية والمعنوية والمكونة للكل والأشياء وإشارات الرiference (referring). يمكن العثور على الكود في الرابط التالي: \url{https://github.com/MinghanLi/UniVS}.

UniVS: توحيد وiversal تقسيم الفيديو باستخدام العبارات كاستعلامات | أحدث الأوراق البحثية | HyperAI