HyperAIHyperAI

Command Palette

Search for a command to run...

UniVS: توحيد وiversal تقسيم الفيديو باستخدام العبارات كاستعلامات

Minghan Li Shuai Li Xindong Zhang Lei Zhang

الملخص

رغم التقدم الأخير في مجال تقسيم الصور الموحد (IS)، لا يزال تطوير نموذج تقسيم الفيديو الموحد (VS) يشكل تحديًا. هذا يعود بشكل أساسي إلى أن مهام تقسيم الفيديو المحددة بالفئات العامة تحتاج إلى كشف جميع الأشياء وتتبعها عبر الإطارات المتتالية، بينما تتطلب مهام تقسيم الفيديو التي توجه بالدلالات إعادة تحديد الهدف باستخدام دلالات بصرية/نصية على طول الفيديو بأكمله، مما يجعل من الصعب التعامل مع المهام المختلفة باستخدام نفس البنية. نحاول معالجة هذه القضايا ونقدم بنية جديدة لتقسيم الفيديو الموحد، وهي UniVS، وذلك من خلال استخدام الدلالات كاستعلامات. تقوم UniVS بحساب متوسط خصائص الدلالة للهدف من الإطارات السابقة واستخدامه كاستعلام أولي لفك شفرة الأقنعة بشكل صريح، كما تدخل طبقة انتباه متقاطع خاصة بالهدف في فك شفرة الأقنعة لدمج خصائص الدلالة في حوض الذاكرة. عن طريق استخدام أقنعة الكيانات المتوقعة من الإطارات السابقة كدلائل بصرية لها، تقوم UniVS بتحويل المهام المختلفة لتقسيم الفيديو إلى تقسيم هدف موجه بالدلالات، مما يزيل عملية التوافق بين الإطارات التي تعتمد على التجربة والخطأ. إطارنا ليس فقط يوحد المهام المختلفة لتقسيم الفيديو بل أيضًا يحقق التدريب والاختبار الشاملين بشكل طبيعي، مما يضمن الأداء القوي في السيناريوهات المختلفة. تظهر UniVS توازنًا جديرًا بالثناء بين الأداء والشمولية في 10 مقاييس صعبة لتقسيم الفيديو، والتي تغطي مهام تقسيم النماذج الفردية والمعنوية والمكونة للكل والأشياء وإشارات الرiference (referring). يمكن العثور على الكود في الرابط التالي: \url{https://github.com/MinghanLi/UniVS}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UniVS: توحيد وiversal تقسيم الفيديو باستخدام العبارات كاستعلامات | مستندات | HyperAI