HyperAIHyperAI

Command Palette

Search for a command to run...

تجميع الدلالات على مستوى التسلسل للكشف عن الأشياء في الفيديو

Haiping Wu Yuntao Chen Naiyan Wang Zhaoxiang Zhang

الملخص

اكتشاف الأشياء في الفيديو (VID) أصبح اتجاهاً بحثياً متزايداً في السنوات الأخيرة. من القضايا المركزية في VID هو تدهور مظهر الإطارات الناتج عن الحركة السريعة. هذه المشكلة تعتبر أساساً غير محددة بشكل جيد بالنسبة لإطار واحد. لذلك، فإن تجميع الخصائص من الإطارات الأخرى يصبح الخيار الطبيعي. تعتمد الطرق الموجودة بشدة على التدفق البصري أو الشبكات العصبية المتكررة لتجميع الخصائص. ومع ذلك، فإن هذه الطرق تركز أكثر على الإطارات المجاورة زمنياً. في هذا العمل، نعتقد أن تجميع الخصائص على مستوى التسلسل الكامل سيؤدي إلى خصائص أكثر تمييزاً ومتانة للكشف عن الأشياء في الفيديو. لتحقيق هذا الهدف، قمنا بتصميم وحدة جديدة لتجميع الدلالات على مستوى التسلسل (SELSA). نوضح أيضاً العلاقة الوثيقة بين الطريقة المقترحة والطريقة التقليدية للتجميع الطيفي، مما يوفر رؤية جديدة لفهم مشكلة VID. قمنا باختبار الطريقة المقترحة على مجموعة بيانات ImageNet VID ومجموعة بيانات EPIC KITCHENS وحققنا نتائج جديدة رائدة في المجال. طريقتنا لا تحتاج إلى طرق معالجة ما بعد المعقدة مثل Seq-NMS أو إعادة تقييم الأنبوب (Tubelet rescoring)، مما يحافظ على خط الأنابيب بسيطاً وواضحاً.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp