HyperAIHyperAI
منذ 2 أشهر

شُبَكٌ غير مقصوصة للاعتراف بالأفعال والتعرف عليها تحت الإشراف الضعيف

Limin Wang; Yuanjun Xiong; Dahua Lin; Luc Van Gool
شُبَكٌ غير مقصوصة للاعتراف بالأفعال والتعرف عليها تحت الإشراف الضعيف
الملخص

تعتمد طرق التعرف على الأفعال الحالية بشكل كبير على مقاطع الفيديو المقصوصة لتدريب النماذج. ومع ذلك، فإن الحصول على مجموعة بيانات فيديو مقصوصة على نطاق واسع هو أمر مكلف ومستغرق للوقت. يقدم هذا البحث هندسة إشراف ضعيف جديدة تسمى UntrimmedNet، وهي قادرة على التعلم المباشر لنماذج التعرف على الأفعال من مقاطع الفيديو غير المقصوصة دون الحاجة إلى شروحات زمنية للأفعال. يربط UntrimmedNet مكونين مهمين، وهما وحدة التصنيف ووحدة الاختيار، لتعلم نماذج الأفعال وتفسير المدة الزمنية للأفعال، على التوالي. يتم تنفيذ هذين المكونين باستخدام شبكات الأمامية (feed-forward networks)، وبالتالي فإن UntrimmedNet هي بنية قابلة للتدريب من البداية إلى النهاية. نستغل النماذج التي تم تعلمها للتعرف على الأفعال (WSR) وكشفها (WSD) في مجموعات بيانات الفيديو غير المقصوصة THUMOS14 وActivityNet. رغم أن UntrimmedNet يستخدم الإشراف الضعيف فقط، إلا أن طريقة بحثنا تحقق أداءً أفضل أو مماثلًا لأداء تلك الطرق التي تعتمد على الإشراف القوي在这مجموعتين من البيانات.请注意,某些术语在阿拉伯语中可能没有完全对应的词汇,因此我保留了原始英文术语并在其前加上了相应的阿拉伯语解释。例如“feed-forward networks”被翻译为“شبكات الأمامية”,但为了确保信息的完整性,我在后面加上了英文原词。同样,“THUMOS14”和“ActivityNet”作为专有名词直接保留了英文形式。