منذ 8 أشهر

الملخص

تعلم التمثيل التمييزي من الفضاء الديناميكي المكاني-الزماني المعقد ضروري للاعتراف بالفيديو. فوق تلك الوحدات الحسابية المكانية-الزمانية المصقولة، أثبتت تحسينات الخصائص المُتعلمة باستخدام السياقات المحورية أنها واعدة لتحقيق هذا الهدف. ومع ذلك، ركزت الأعمال السابقة عمومًا على استخدام نوع واحد من السياقات لضبط قنوات الخصائص بأكملها وكان من الصعب تطبيقها للتعامل مع الأنشطة المرئية المتنوعة. يمكن حل هذه المشكلة باستخدام انتباهات زمكانية-زمانية ثنائية لاعادة حساب استجابة الخصائص باستخدام سياقات عابرة للمحور بتكاليف حسابية ثقيلة. في هذا البحث، نقترح طريقة فعالة لتحسين الخصائص تقوم بتقسيم قنوات الخصائص إلى مجموعات عدة وتعمل على تحسين كل مجموعة بشكل منفصل باستخدام سياقات محورية مختلفة بالتوازي. نشير إلى هذا التحسين الخفيف للخصائص باسم السياق الجماعي (Group Contextualization - GC). تحديدًا، صممنا سلسلةً من مُحسنات العناصر الفعالة، وهي ECal-G/S/T/L، حيث تكون سياقاتها المحورية ديناميكية المعلومات التي تم جمعها من المحاور الأخرى إما بشكل عام أو محليًا، لتوفير السياق لمجموعات قنوات الخصائص. يمكن دمج وحدة GC بكثافة في كل طبقة باقي في الشبكات المرئية الجاهزة. مع زيادة بسيطة في التكلفة الحسابية، تم ملاحظة تحسن مستمر عند دمج GC في شبكات مختلفة. من خلال استخدام المُحسنات لتضمين الخصائص بأربعة أنواع مختلفة من السياقات بالتوازي، يتوقع أن يكون التمثيل المُتعلم أكثر مقاومة لأنواع متنوعة من الأنشطة. على مقاطع الفيديو ذات التغيرات الزمنية الغنية، تم رصد أن GC يمكن أن يعزز أداء 2D-CNN (مثل TSN وTSM) إلى مستوى يقارن بأحدث الشبكات المرئية. الرمز متاح على https://github.com/haoyanbin918/Group-Contextualization.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار