HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل المكان والزمان باستخدام الانتشار المحلي والعالمي

Zhaofan Qiu; Ting Yao; Chong-Wah Ngo; Xinmei Tian; Tao Mei
تعلم تمثيل المكان والزمان باستخدام الانتشار المحلي والعالمي
الملخص

الشبكات العصبية المتشابكة (CNN) تعتبر من النماذج القوية لمشاكل التعرف البصري. ومع ذلك، فإن مرشحات التشابك في هذه الشبكات هي عمليات محلية تتجاهل الارتباطات على نطاق واسع. يصبح هذا العيب أسوأ بشكل خاص في حالة التعرف على الفيديو، نظرًا لأن الفيديو هو وسائط معلوماتية كثيفة ذات تغيرات زمنية معقدة. في هذا البحث، نقدم إطارًا جديدًا لتعزيز تعلم التمثيل الزماني والمكاني من خلال التفتيت المحلي والعالمي (LGD). بصفة خاصة، نقوم ببناء هندسة شبكة عصبية جديدة تتعلم التمثيلات المحلية والعالمية بالتوازي. تتكون هذه الهندسة من كتل LGD، حيث تقوم كل كتلة بتحديث الخصائص المحلية والعالمية من خلال نمذجة الانتشار بين هذين النوعين من التمثيلات. يعمل الانتشار على تفاعل جوانب المعلومات المختلفة، أي المعلومات المحلية والمعلومات الشمولية، بطريقة أكثر قوة في تعلم التمثيل. بالإضافة إلى ذلك، تم تقديم تصنيف مُ커نَّل لدمج التمثيلات من الجوانب المختلفة للتعرف على الفيديو. حققت شبكاتنا LGD تحسينات واضحة على مجموعتي بيانات تصنيف الفيديو Kinetics-400 و Kinetics-600 بنسبة 3.5٪ و 0.7٪ مقابل أفضل المنافسين. قمنا أيضًا بمراجعة قابلية تعميم كلٍ من التمثيلات العالمية والمحلية التي أنتجتها شبكاتنا LGD المدربة مسبقًا على أربع مقاييس مختلفة لمهمتي التعرف على الحركات في الفيديو واكتشاف الحركات الزمانية والمكانية. تم الإبلاغ عن أداء فائق للتقنيات الرائدة في مجالها على هذه المقاييس.الرمز البرمجي متاح عبر الرابط: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.

تعلم تمثيل المكان والزمان باستخدام الانتشار المحلي والعالمي | أحدث الأوراق البحثية | HyperAI