HyperAIHyperAI
منذ 2 أشهر

تصنيف الفيديو باستخدام شبكات ال��volution العصبية المفصولة حسب القنوات

Du Tran; Heng Wang; Lorenzo Torresani; Matt Feiszli
تصنيف الفيديو باستخدام شبكات ال��volution العصبية المفصولة حسب القنوات
الملخص

أظهرت الالتفافات المجموعية أنها توفر توفيرًا كبيرًا في الحسابات في العديد من الأطر المعمارية للالتفافات ثنائية الأبعاد المستخدمة في تصنيف الصور. ومن الطبيعي أن نتساءل: 1) هل يمكن للالتفافات المجموعية المساعدة في تخفيف التكلفة الحسابية العالية لشبكات تصنيف الفيديو؟ 2) ما هي العوامل الأكثر أهمية في شبكات الالتفافات المجموعية ثلاثية الأبعاد؟ و 3) ما هي التوازنات الجيدة بين الحساب والدقة مع شبكات الالتفافات المجموعية ثلاثية الأبعاد؟يقوم هذا البحث بدراسة آثار الخيارات التصميمية المختلفة في شبكات الالتفافات المجموعية ثلاثية الأبعاد المستخدمة لتصنيف الفيديو. وقد أثبتنا تجريبيًا أن كمية التفاعلات القنواتية تلعب دورًا مهمًا في دقة شبكات الالتفافات المجموعية ثلاثية الأبعاد. تقترح تجاربنا نتائج رئيسية اثنتين. أولاً، يعتبر فصل التفاعلات القنواتية عن التفاعلات الزمانية والمكانية ممارسة جيدة، حيث يؤدي ذلك إلى تحسين الدقة وتقليل التكلفة الحسابية. ثانياً، توفر الالتفافات القنواتية المنفصلة ثلاثة أبعاد نوعًا من التنظيم، مما يؤدي إلى انخفاض دقة التدريب ولكن زيادة دقة الاختبار مقارنة بالالتفافات الثلاثة الأبعاد. تؤدي هذان النتيجان التجريبانيان بنا إلى تصميم بنية - شبكة الالتفاف القنواتي المنفصل (CSN) - والتي تكون بسيطة وكفوءة ومعتمدة على الدقة. على مجموعات بيانات Sports1M و Kinetics و Something-Something، تكون شبكات CSN الخاصة بنا مكافئة أو أفضل من أفضل التقنيات الموجودة حاليًا بينما تكون أكثر كفاءة بمقدار 2-3 أضعاف.