HyperAIHyperAI
منذ 15 أيام

هرم متعدد الاتجاهات ومتعدد المقاييس في المحول لاسترجاع المشاة القائم على الفيديو

{Xianghao Zang; Ge Li; Wei Gao}
هرم متعدد الاتجاهات ومتعدد المقاييس في المحول لاسترجاع المشاة القائم على الفيديو
الملخص

في مراقبة الفيديو، يُعد استرجاع المشاة (المعروف أيضًا باسم التعرف على الأشخاص) مهمة أساسية. تهدف هذه المهمة إلى استرجاع صورة المشاة المطلوبة من كاميرات لا تتداخل مجالاتها البصرية. في الآونة الأخيرة، حققت النماذج المستندة إلى المحولات (Transformers) تقدمًا كبيرًا في هذا المجال. ومع ذلك، ما زالت هذه النماذج تعاني من تجاهل المعلومات الدقيقة المُفصلة والمبنية على الأجزاء. تقدم هذه الورقة نموذجًا يُسمى "هرم في المحول" (Pyramid in Transformer - PiT) متعدد الاتجاهات ومتعدد المقاييس لحل هذه المشكلة. في البنية القائمة على المحولات، يتم تقسيم كل صورة لمشاة إلى عدد من المربعات (patches). ثم تُقدَّم هذه المربعات إلى طبقات المحول للحصول على تمثيل الميزات الخاص بهذه الصورة. ولاستكشاف المعلومات الدقيقة، تقترح الورقة تطبيق تقسيم رأسي وتقسيم أفقي على هذه المربعات، مما يؤدي إلى إنتاج أجزاء جسدية باتجاهات مختلفة. توفر هذه الأجزاء معلومات أكثر دقة. ولدمج تمثيلات الميزات متعددة المقاييس، تُقدَّم بنية هرمية تتضمن معلومات على المستوى العالمي ومجموعة من المعلومات المحلية على مقاييس مختلفة. ويتم دمج أهرامات الميزات الخاصة بجميع صور المشاة من نفس الفيديو لتكوين التمثيل النهائي متعدد الاتجاهات ومتعدد المقاييس. أظهرت النتائج التجريبية على بحثين صعبين مبنيين على الفيديو، وهما MARS وiLIDS-VID، أن النموذج المقترح PiT يحقق أداءً يُعد الأفضل في المجال (state-of-the-art). كما أظهرت الدراسات التحليلية الموسعة تفوق البنية الهرمية المقترحة. يمكن الوصول إلى الكود من خلال الرابط التالي: https://git.openi.org.cn/zangxh/PiT.git.

هرم متعدد الاتجاهات ومتعدد المقاييس في المحول لاسترجاع المشاة القائم على الفيديو | أحدث الأوراق البحثية | HyperAI