منذ 19 أيام

التعلم للتعرف على الأنشطة الإجرائية باستخدام التدريب البعيد

Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani

الملخص

في هذه الورقة، نتناول مشكلة تصنيف الأنشطة الدقيقة ذات الخطوات المتعددة (مثل إعداد وصفات طهي مختلفة، أو إجراء تحسينات منزلية متنوعة، أو إنشاء أشكال متنوعة من الفنون والحرف اليدوية) من مقاطع فيديو طويلة تمتد لفترة تصل إلى عدة دقائق. يتطلب تصنيف هذه الأنشطة بدقة لا يقتصر على تمييز الخطوات الفردية التي تشكل المهمة، بل يمتد إلى التقاط الاعتماد الزمني بينها. ويختلف هذا التحدي بشكل كبير عن تصنيف الأفعال التقليدي، حيث يتم عادةً تحسين النماذج على مقاطع فيديو تدوم بضع ثوانٍ فقط، وتُقَصَّ لاحقًا يدويًا لاحتوائها على أفعال ذرية بسيطة. وعلى الرغم من أن التصنيفات المرتبطة بالخطوات يمكن أن تُمكّن من تدريب النماذج على تمييز الخطوات الفردية للأنشطة التسلسلية، إلا أن المجموعات الكبيرة من البيانات المتاحة في هذا المجال لا تتضمن علامات تجزئة للخطوات، وذلك بسبب التكلفة الباهظة لتحديد الحدود الزمنية يدويًا في مقاطع الفيديو الطويلة. ولحل هذه المشكلة، نقترح التعرف التلقائي على الخطوات في مقاطع الفيديو التعليمية من خلال الاستفادة من مراقبة بعيدة (distant supervision) عبر قاعدة معرفية نصية (wikiHow) التي تتضمن وصفًا تفصيليًا للخطوات الضرورية لتنفيذ مجموعة واسعة من الأنشطة المعقدة. تعتمد طريقةنا على نموذج لغوي لتوافق الصوت المُسجَّل بشكل تلقائي وعشوائي من الفيديو مع وصف الخطوات الموجودة في قاعدة المعرفة. ونُظهر أن النماذج المرئية التي تم تدريبها على تمييز هذه الخطوات المُعلَّمة تلقائيًا (بدون مراقبة يدوية) تُنتج تمثيلًا يحقق أداءً متفوقًا في التعميم على أربع مهام تابعة: تمييز الأنشطة التسلسلية، وتصنيف الخطوات، وتوقع الخطوات، وتصنيف مقاطع الفيديو من منظور الشخص الأول (egocentric video classification).