شبكات المقاطع الزمنية لتمييز الأفعال في الفيديوهات

حققت الشبكات التلافيفية العميقة نجاحًا كبيرًا في مجال التعرف على الصور. ومع ذلك، فيما يتعلق بالتعرف على الحركات في الفيديو، فإن تفوقها على الطرق التقليدية ليس واضحًا إلى هذا الحد. نقدم إطار عمل عام ومروّن على مستوى الفيديو لتعلم نماذج الحركات في الفيديوهات. يهدف هذا الأسلوب، الذي يُطلق عليه شبكة المقاطع الزمنية (Temporal Segment Network - TSN)، إلى نمذجة الهياكل الزمنية طويلة المدى باستخدام وحدة عينات ودمج مقاطع جديدة. تصميم هذه الوحدة الفريد يمكن شبكتنا TSN من تعلم نماذج الحركات بكفاءة باستخدام الفيديوهات الكاملة للحركات. يمكن تكييف النماذج التي تم تعلمها بسهولة للتعرف على الحركات في كل من الفيديوهات المقطوعة والممتدة باستخدام تقنيتي التجميع المتوسط البسيط والدمج متعدد المقياس الزمني، على التوالي. كما درسنا سلسلة من أفضل الممارسات لتطبيق إطار العمل TSN عند توفر عينات تدريب محدودة. حققت طريقتنا أداءً يتفوق على أحدث ما وصلت إليه التقنيات في أربعة مقاييس تحدي التعرف على الحركات الصعبة: HMDB51 (71.0%)، UCF101 (94.9%)، THUMOS14 (80.1%)، وActivityNet v1.2 (89.6%). باستخدام النموذج المقترح للفرق بين الألوان RGB للحركة، يمكن لطريquetنا أن تحقق دقة تنافسية على UCF101 (91.0%) مع تشغيل بسرعة 340 إطارًا في الثانية. بالإضافة إلى ذلك، استنادًا إلى شبكات المقاطع الزمنية، فزنا بمسار تصنيف الفيديو في تحدي ActivityNet 2016 بين 24 فريقًا، مما يثبت فعالية TSN والممارسات الجيدة المقترحة.请注意,最后一句中的"طرقة"应该是"طريقة",这是笔误。正确的翻译应为:استنادًا إلى شبكات المقاطع الزمنية، فزنا بمسار تصنيف الفيديو في تحدي ActivityNet 2016 بين 24 فريقًا، مما يثبت فعالية شبكة المقاطع الزمنية (TSN) والممارسات الجيدة المقترحة.