HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم عبر التقاطع للتقسيم الفوري للInstances في الفيديو

Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Chen Fang Ying Shan Bin Feng Wenyu Liu

الملخص

نمذجة السياق البصري الزمني عبر الإطارات تُعد أمرًا بالغ الأهمية لمهام فصل محددات الفيديو (VIS) وأخرى ذات صلة بفهم الفيديو. في هذه الورقة، نقترح نموذجًا سريعًا للعمل المباشر في فصل محددات الفيديو يُدعى CrossVIS. بالنسبة لنمذجة المعلومات الزمنية في VIS، نقدّم خطة تعلّم متقاطعة جديدة تستخدم الميزة الخاصة بالمحدد في الإطار الحالي لتوصيف موقع نفس المحدد بدقة في الإطارات الأخرى. على عكس الطرق السابقة، لا تتطلب خطة التعلّم المتقاطع أي معلمات إضافية لتعزيز الميزات. وبدمجها مع خسارة فصل المحددات، تتيح خطة التعلّم المتقاطع تعلّمًا فعّالًا للعلاقة بين المحددات والبكسل عبر الإطارات، مما يُحقّق تحسينًا مجانيًا أثناء الاستدلال. بالإضافة إلى ذلك، نقترح فرعًا جديدًا للتمثيل المحدد العالمي المتوازن، لضمان توصيل المحددات في الوقت الفعلي بدقة وأكثر استقرارًا. أجرينا تجارب واسعة على ثلاث معايير صعبة لـ VIS، وهي: YouTube-VIS-2019، وOVIS، وYouTube-VIS-2021، لتقييم طرقنا. وفقًا للمعرفة الحالية، يحقق CrossVIS أفضل أداء بين جميع الطرق المباشرة لـ VIS، ويُظهر توازنًا مرضيًا بين التأخير (التأخير الزمني) والدقة. وسيتم توفير الكود لتسهيل الأبحاث المستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp