HyperAIHyperAI

Command Palette

Search for a command to run...

الاستقطاب الفعلي للفيديو للInstances باستخدام استعلامات التتبع

Zitong Zhan Daniel McKee Svetlana Lazebnik

الملخص

في الآونة الأخيرة، حققت الطرق القائمة على النموذج التحويلي (Transformer-based) نتائج مذهلة في مهام التجزئة الوضعية للفيديوهات (Video Instance Segmentation - VIS). ومع ذلك، فإن معظم هذه الطرق المتميزة تعمل بطريقة غير حية (offline)، حيث تُعالج مقطع الفيديو بأكمله دفعة واحدة لتوليد أصناف الأقنعة الوضعية. وهذا يجعلها غير قادرة على التعامل مع مقاطع الفيديو الطويلة التي تظهر في مجموعات بيانات الفيديو التحديّة الحديثة مثل UVO وOVIS. نقترح نموذجًا متكاملًا للجزء الواقعي للفيديو القائم على التحويل، يعمل بشكل كامل في الوقت الفعلي (fully online)، ويحقق أداءً مماثلًا للطرق الرائدة غير الحية على معيار YouTube-VIS 2019، ويفوقها بشكل ملحوظ على مجموعتي البيانات UVO وOVIS. يُسمى هذا النهج بـ "ROVIS" (التحلّيل الواقعي المقاوم للفيديوهات)، والذي يُعدّّ تطويرًا لنموذج Mask2Former لتحديد الأصناف في الصور، من خلال إدخال "استفسارات التتبع" (track queries) – وهي آلية خفيفة الوزن لنقل معلومات التتبع من إطار إلى آخر، أُدخلت أول مرة في أسلوب TrackFormer لمهام تتبع الكائنات المتعددة. ونُظهر أن، عند دمج هذه الاستفسارات مع بنية قوية للفصل الصوتي، يمكن أن تُظهر دقة مذهلة دون أن تُحدَّد بمقاطع الفيديو القصيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp