HyperAIHyperAI

Command Palette

Search for a command to run...

تجميع عالمي-محلي مُعزّز بالذاكرة للكشف عن الكائنات في الفيديو

Yihong Chen Yue Cao Han Hu Liwei Wang

الملخص

كيف يُدرِك الإنسان كائنًا في مشهد فيديو؟ نظرًا لسوء جودة الإطار الواحد، قد يكون من الصعب على الأشخاص التعرف على كائن مُحْجَب في هذا الإطار باستخدام فقط المعلومات المحتواة في صورة واحدة. نحن ندّعي أن هناك دليلين مهمين يساعدان البشر على التعرف على الكائنات في الفيديوهات: المعلومات الدلالية الشاملة (global semantic information) والمعلومات المكانية المحلية (local localization information). في الآونة الأخيرة، اعتمدت العديد من الطرق آليات الانتباه الذاتي (self-attention mechanisms) لتعزيز الميزات في الإطار المفتاحي باستخدام إما المعلومات الدلالية الشاملة أو المعلومات المكانية المحلية. في هذه الورقة، نقدّم شبكة MEGA (MEGA network) التي تعتمد على تجميع عالمي-محلي مُعزّز بالذاكرة، وهي واحدة من أولى المحاولات التي تأخذ بعين الاعتبار كلا النوعين من المعلومات بشكل كامل. علاوةً على ذلك، بفضل وحدة الذاكرة طويلة المدى (Long Range Memory - LRM) الجديدة والمتعددة الدقة التي تم تصميمها بعناية، يمكن لشبكة MEGA التي نقترحها تمكين الإطار المفتاحي من الوصول إلى محتوى أكثر بكثير من أي طريقة سابقة. وباستخدام هذين المصدرَين من المعلومات المُعزّزة، تحقق طريقة لدينا أداءً متفوّقًا على مستوى التقنيات الحالية (state-of-the-art) على مجموعة بيانات ImageNet VID. يمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/Scalsol/mega.pytorch}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp