HyperAIHyperAI
منذ 2 أشهر

سياق المجموعة لتمييز الفيديو

Hao, Yanbin ; Zhang, Hao ; Ngo, Chong-Wah ; He, Xiangnan
سياق المجموعة لتمييز الفيديو
الملخص

تعلم التمثيل التمييزي من الفضاء الديناميكي المكاني-الزماني المعقد ضروري للاعتراف بالفيديو. فوق تلك الوحدات الحسابية المكانية-الزمانية المصقولة، أثبتت تحسينات الخصائص المُتعلمة باستخدام السياقات المحورية أنها واعدة لتحقيق هذا الهدف. ومع ذلك، ركزت الأعمال السابقة عمومًا على استخدام نوع واحد من السياقات لضبط قنوات الخصائص بأكملها وكان من الصعب تطبيقها للتعامل مع الأنشطة المرئية المتنوعة. يمكن حل هذه المشكلة باستخدام انتباهات زمكانية-زمانية ثنائية لاعادة حساب استجابة الخصائص باستخدام سياقات عابرة للمحور بتكاليف حسابية ثقيلة. في هذا البحث، نقترح طريقة فعالة لتحسين الخصائص تقوم بتقسيم قنوات الخصائص إلى مجموعات عدة وتعمل على تحسين كل مجموعة بشكل منفصل باستخدام سياقات محورية مختلفة بالتوازي. نشير إلى هذا التحسين الخفيف للخصائص باسم السياق الجماعي (Group Contextualization - GC). تحديدًا، صممنا سلسلةً من مُحسنات العناصر الفعالة، وهي ECal-G/S/T/L، حيث تكون سياقاتها المحورية ديناميكية المعلومات التي تم جمعها من المحاور الأخرى إما بشكل عام أو محليًا، لتوفير السياق لمجموعات قنوات الخصائص. يمكن دمج وحدة GC بكثافة في كل طبقة باقي في الشبكات المرئية الجاهزة. مع زيادة بسيطة في التكلفة الحسابية، تم ملاحظة تحسن مستمر عند دمج GC في شبكات مختلفة. من خلال استخدام المُحسنات لتضمين الخصائص بأربعة أنواع مختلفة من السياقات بالتوازي، يتوقع أن يكون التمثيل المُتعلم أكثر مقاومة لأنواع متنوعة من الأنشطة. على مقاطع الفيديو ذات التغيرات الزمنية الغنية، تم رصد أن GC يمكن أن يعزز أداء 2D-CNN (مثل TSN وTSM) إلى مستوى يقارن بأحدث الشبكات المرئية. الرمز متاح على https://github.com/haoyanbin918/Group-Contextualization.

سياق المجموعة لتمييز الفيديو | أحدث الأوراق البحثية | HyperAI