HyperAIHyperAI
منذ 17 أيام

تجميع عالمي-محلي مُعزّز بالذاكرة للكشف عن الكائنات في الفيديو

Yihong Chen, Yue Cao, Han Hu, Liwei Wang
تجميع عالمي-محلي مُعزّز بالذاكرة للكشف عن الكائنات في الفيديو
الملخص

كيف يُدرِك الإنسان كائنًا في مشهد فيديو؟ نظرًا لسوء جودة الإطار الواحد، قد يكون من الصعب على الأشخاص التعرف على كائن مُحْجَب في هذا الإطار باستخدام فقط المعلومات المحتواة في صورة واحدة. نحن ندّعي أن هناك دليلين مهمين يساعدان البشر على التعرف على الكائنات في الفيديوهات: المعلومات الدلالية الشاملة (global semantic information) والمعلومات المكانية المحلية (local localization information). في الآونة الأخيرة، اعتمدت العديد من الطرق آليات الانتباه الذاتي (self-attention mechanisms) لتعزيز الميزات في الإطار المفتاحي باستخدام إما المعلومات الدلالية الشاملة أو المعلومات المكانية المحلية. في هذه الورقة، نقدّم شبكة MEGA (MEGA network) التي تعتمد على تجميع عالمي-محلي مُعزّز بالذاكرة، وهي واحدة من أولى المحاولات التي تأخذ بعين الاعتبار كلا النوعين من المعلومات بشكل كامل. علاوةً على ذلك، بفضل وحدة الذاكرة طويلة المدى (Long Range Memory - LRM) الجديدة والمتعددة الدقة التي تم تصميمها بعناية، يمكن لشبكة MEGA التي نقترحها تمكين الإطار المفتاحي من الوصول إلى محتوى أكثر بكثير من أي طريقة سابقة. وباستخدام هذين المصدرَين من المعلومات المُعزّزة، تحقق طريقة لدينا أداءً متفوّقًا على مستوى التقنيات الحالية (state-of-the-art) على مجموعة بيانات ImageNet VID. يمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/Scalsol/mega.pytorch}.

تجميع عالمي-محلي مُعزّز بالذاكرة للكشف عن الكائنات في الفيديو | أحدث الأوراق البحثية | HyperAI