HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم للتعرف على الأنشطة الإجرائية باستخدام التدريب البعيد

Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani

الملخص

في هذه الورقة، نتناول مشكلة تصنيف الأنشطة الدقيقة ذات الخطوات المتعددة (مثل إعداد وصفات طهي مختلفة، أو إجراء تحسينات منزلية متنوعة، أو إنشاء أشكال متنوعة من الفنون والحرف اليدوية) من مقاطع فيديو طويلة تمتد لفترة تصل إلى عدة دقائق. يتطلب تصنيف هذه الأنشطة بدقة لا يقتصر على تمييز الخطوات الفردية التي تشكل المهمة، بل يمتد إلى التقاط الاعتماد الزمني بينها. ويختلف هذا التحدي بشكل كبير عن تصنيف الأفعال التقليدي، حيث يتم عادةً تحسين النماذج على مقاطع فيديو تدوم بضع ثوانٍ فقط، وتُقَصَّ لاحقًا يدويًا لاحتوائها على أفعال ذرية بسيطة. وعلى الرغم من أن التصنيفات المرتبطة بالخطوات يمكن أن تُمكّن من تدريب النماذج على تمييز الخطوات الفردية للأنشطة التسلسلية، إلا أن المجموعات الكبيرة من البيانات المتاحة في هذا المجال لا تتضمن علامات تجزئة للخطوات، وذلك بسبب التكلفة الباهظة لتحديد الحدود الزمنية يدويًا في مقاطع الفيديو الطويلة. ولحل هذه المشكلة، نقترح التعرف التلقائي على الخطوات في مقاطع الفيديو التعليمية من خلال الاستفادة من مراقبة بعيدة (distant supervision) عبر قاعدة معرفية نصية (wikiHow) التي تتضمن وصفًا تفصيليًا للخطوات الضرورية لتنفيذ مجموعة واسعة من الأنشطة المعقدة. تعتمد طريقةنا على نموذج لغوي لتوافق الصوت المُسجَّل بشكل تلقائي وعشوائي من الفيديو مع وصف الخطوات الموجودة في قاعدة المعرفة. ونُظهر أن النماذج المرئية التي تم تدريبها على تمييز هذه الخطوات المُعلَّمة تلقائيًا (بدون مراقبة يدوية) تُنتج تمثيلًا يحقق أداءً متفوقًا في التعميم على أربع مهام تابعة: تمييز الأنشطة التسلسلية، وتصنيف الخطوات، وتوقع الخطوات، وتصنيف مقاطع الفيديو من منظور الشخص الأول (egocentric video classification).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp