Command Palette
Search for a command to run...
تعظيم الانتروبيا المكانية-الزمنية للشبكات العصبية العميقة ثلاثية الأبعاد لتحسين التعرف على الفيديو
تعظيم الانتروبيا المكانية-الزمنية للشبكات العصبية العميقة ثلاثية الأبعاد لتحسين التعرف على الفيديو
Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song
الملخص
تمثّل الشبكات العصبية التلافيفية الثلاثية الأبعاد (3D CNNs) الخيار السائد في مجال التعرف على الفيديو. ولالتقاط المعلومات الزمنية، يتم حساب التلافيف الثلاثية على طول التسلسلات، مما يؤدي إلى تكاليف حسابية متزايدة تربيعياً ومرتفعة. ولتقليل التكلفة الحسابية، اعتمدت الطرق السابقة على هياكل 3D/2D CNN مصممة يدويًا مع تقريبات أو على بحث تلقائي، مما يُضعف قدرة النموذج على التمثيل أو يجعل عملية التدريب مكلفة من حيث الوقت. في هذا العمل، نقترح تصميمًا تلقائيًا لهياكل 3D CNN فعّالة من خلال منهجية جديدة لبحث البنية العصبية الخالية من التدريب، مصممة خصيصًا للشبكات ثلاثية الأبعاد مع مراعاة تعقيد النموذج. ولقياس التعبيرية للشبكات ثلاثية الأبعاد بشكل فعّال، نُصِّغ الشبكة ثلاثية الأبعاد كنظام معلومات ونستنتج درجة 엔تروبيا تحليلية مستندة إلى مبدأ الانتروبيا العظمى. وبشكل خاص، نُقدّم درجة انتروبيا فضائية-زمنية (STEntr-Score) مع عامل تحسين لمعالجة الفرق في المعلومات البصرية بين الأبعاد الفضائية والزمنية، وذلك من خلال الاستفادة الديناميكية من العلاقة بين حجم خريطة الميزات وحجم النواة بشكل عمودي. يمكن بعد ذلك البحث بكفاءة عن هياكل 3D CNN فعّالة وقوية التعبير، أي شبكات 3D قائمة على الانتروبيا (عائلة E3D)، من خلال تحسين درجة STEntr-Score ضمن حد أقصى محدد من الموارد الحسابية، باستخدام خوارزمية تطورية دون الحاجة إلى تدريب معاملات الشبكة. أظهرت التجارب الواسعة على مجموعتي بيانات Something-Something V1&V2 وKinetics400 أداءً متقدماً على مستوى الحالة الحالية مع كفاءة حسابية أعلى. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/alibaba/lightweight-neural-architecture-search.