منذ 2 أشهر
كل لحظة مهمة: التسمية الكثيفة والتفصيلية للأفعال في مقاطع الفيديو المعقدة
Serena Yeung; Olga Russakovsky; Ning Jin; Mykhaylo Andriluka; Greg Mori; Li Fei-Fei

الملخص
كل لحظة لها أهميتها في التعرف على الأنشطة. يتطلب فهم شامل لأنشطة الإنسان في الفيديو تسمية كل إطار وفقًا للأعمال التي تحدث، مما يعني وضع علامات متعددة بكثافة على مدار سلسلة الفيديو. لدراسة هذه المشكلة، قمنا بتوسيع مجموعة البيانات الموجودة THUMOS وتقديم MultiTHUMOS، وهي مجموعة بيانات جديدة تتضمن علامات كثيفة على مقاطع الفيديو من الإنترنت غير المقيدة. يستفيد نموذج العلامات المتعددة والكثيفة من العلاقات الزمنية داخل الفئات وعبرها. نحدد نوعًا جديدًا من شبكات الذاكرة طويلة المدى قصيرة المدى (LSTM) العميقة لنمذجة هذه العلاقات الزمنية عبر اتصالات متعددة للإدخال والإخراج. نوضح أن هذا النموذج يحسن دقة تصنيف الأنشطة ويتيح أيضًا مهام فهم أعمق تتراوح من الاسترجاع الهيكلي إلى التنبؤ بالأنشطة.