CT-Net: شبكة التنسورизация القنوات للتصنيف الفيديو

الان convolution ثلاثية الأبعاد قوية جدًا في تصنيف الفيديو، لكنها غالبًا ما تكون مكلفة من حيث الحوسبة. ركزت الدراسات الحديثة بشكل رئيسي على تحليلها على المحاور الفضائية-الزمنية و/أو المحور القناتي. ومع ذلك، تفشل معظم الطرق في تحقيق توازن مرضٍ بين كفاءة الت convolution وكمية التفاعل بين الميزات. ولذلك، نقترح شبكة جديدة ومختصرة تُسمى شبكة التحويل القناتي (CT-Net)، حيث نعامل المحور القناتي للميزة المدخلة كناتج لضرب K محاور فرعية. من جهة، يؤدي هذا إلى تحليل تلقائي للـ convolution بطرق متعددة الأبعاد، مما يقلل من العبء الحسابي. ومن جهة أخرى، يمكنه تعزيز التفاعل الفعّال بين الميزات من قنوات مختلفة، وتوسيع مجال الاستقبال الثلاثي الأبعاد لهذه التفاعلات تدريجيًا، ما يعزز من دقة التصنيف. علاوةً على ذلك، نزود وحدة CT-Module بآلية تنشيط التنسور (TE)، التي تتعلم استغلال الانتباه الفضائي والزمني والقناتي بطريقة عالية الأبعاد، لتحسين القدرة التعاونية بين جميع محاور الميزة داخل وحدة CT-Module. وأخيرًا، نقوم بتكيف مرن لشبكة ResNet كأساس لـ CT-Net. أجرينا تجارب واسعة على عدة معايير فيديو صعبة، مثل Kinetics-400 وSomething-Something V1 وV2. تتفوق شبكة CT-Net على عدد من الطرق الحديثة الراقية (SOTA) من حيث الدقة و/أو الكفاءة. ستكون الشفرات والنموذج متاحين على: https://github.com/Andy1621/CT-Net.