HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التفاعلي الكثيف للهوية الشخصية القائمة على الفيديو

Tianyu He Xin Jin Xu Shen Jianqiang Huang Zhibo Chen Xian-Sheng Hua

الملخص

تهدف إعادة تحديد الأشخاص القائمة على الفيديو (re-ID) إلى مطابقة نفس الشخص عبر مقاطع فيديو مختلفة. وتعتبر الاستفادة الفعّالة من الميزات الدقيقة متعددة المقاييس، مع بناء التفاعل البنائي بينها، عنصراً محورياً لنجاح هذه المهمة. في هذه الورقة، نقترح إطاراً هجينًا يُسمى التعلم المكثف للتفاعل (Dense Interaction Learning - DenseIL)، الذي يجمع بين المزايا الرئيسية للهياكل القائمة على الشبكات العصبية التلافيفية (CNN) والهياكل القائمة على الانتباه (Attention-based) لمواجهة التحديات المرتبطة بإعادة تحديد الأشخاص القائمة على الفيديو. يحتوي إطار DenseIL على معالج CNN ومحول مكثف للتفاعل (DI decoder). يُعَهَد إلى معالج CNN باستخلاص الميزات المكانية التمييزية بكفاءة، بينما تم تصميم المحول DI لتمثيل التفاعل المكاني-الزماني الداخلي بين الإطارات بشكل مكثف. على عكس الدراسات السابقة، نجعل المحول DI يُجري انتباهاً مكثفاً إلى الميزات المتوسطة الدقيقة الناتجة عن شبكة CNN، مما يؤدي بشكل طبيعي إلى تمثيل مكاني-زماني متعدد المستويات لكل مقطع فيديو. بالإضافة إلى ذلك، نُدخل تضميناً مكانيًا-زمانيًا (Spatio-TEmporal Positional Embedding - STEP-Emb) إلى المحول DI لاستكشاف العلاقات المكانية بين المدخلات المكانية-الزمنية. وقد أظهرت تجاربنا تفوقاً متسقاً وملحوظاً على جميع الطرق الرائدة في مجال إعادة تحديد الأشخاص القائمة على الفيديو في عدة مجموعات بيانات قياسية متعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp