منذ 2 أشهر
نظرة أعمق على الالتفافات المكانية-الزمانية لتمييز الأفعال
Du Tran; Heng Wang; Lorenzo Torresani; Jamie Ray; Yann LeCun; Manohar Paluri

الملخص
في هذا البحث، نناقش عدة أشكال للتشابك المكاني الزمني لتحليل الفيديو وندرس تأثيراتها على التعرف على الأفعال. مصدر إلهامنا يعود إلى الملاحظة أن شبكات النيورونات المتكررة ثنائية الأبعاد (2D CNNs) التي تُطبق على الإطارات الفردية من الفيديو ظلت أداءً ثابتًا في مجال التعرف على الأفعال. في هذه الدراسة، نثبت بشكل تجريبي مزايا الدقة لشبكات النيورونات المتكررة ثلاثية الأبعاد (3D CNNs) مقارنة بـ 2D CNNs ضمن إطار التعلم المتبقي. علاوة على ذلك، نوضح أن تحليل فلاتر التشابك ثلاثية الأبعاد إلى مكونات مكانية وزمنية منفصلة يؤدي إلى مزايا كبيرة في الدقة. أدت دراستنا التجريبية إلى تصميم كتلة تشابكية مكانيّة زمنيّة جديدة "R(2+1)D" والتي تتيح لـ CNNs تحقيق نتائج مشابهة أو أفضل من الحالة الأكثر تقدمًا في كل من Sports-1M، Kinetics، UCF101 و HMDB51.