HyperAIHyperAI

Command Palette

Search for a command to run...

التمرين التوسعي للتعرف على الإجراءات بدون عينات

Shizhe Chen Dong Huang

الملخص

أصبح عدد فئات الإجراءات المتزايد يشكل تحديًا جديدًا لفهم الفيديو، مما جعل التعرف على الإجراءات الصفرية (ZSAR) اتجاهًا مزدهرًا. يهدف مهام ZSAR إلى التعرف على إجراءات مستهدفة (غير مرئية) دون أمثلة تدريبية، وذلك من خلال الاستفادة من التمثيلات الدلالية لربط الإجراءات المرئية بالإجراءات غير المرئية. ومع ذلك، نظرًا لتعقيد وتعدد الإجراءات، يظل من الصعب تمثيل فئات الإجراءات دلاليًا ونقل المعرفة من البيانات المرئية إلى غير المرئية. في هذا العمل، نقترح نموذج ZSAR المُعزز بتقنية ER، مستوحى من تقنية ذاكرة بشرية فعّالة تُعرف بـ "التمرين التوسعي" (Elaborative Rehearsal)، والتي تتمثل في تعميق فهم مفهوم جديد وربطه بمفاهيم معروفة. بشكل محدد، نوسع كل فئة إجراء إلى جملة وصف توسعي (ED)، وهي أكثر تمييزًا من اسم الفئة وأقل تكلفة من الخصائص المحددة يدويًا. بالإضافة إلى محاذاة التمثيل الدلالي للصفات مع الفيديوهات مباشرة، ندمج كائنات من الفيديو كمفاهيم توسعية (EC) لتحسين التمثيل الدلالي للفيديو وتعزيز القدرة على التعميم من الإجراءات المرئية إلى غير المرئية. يحقق نموذج ZSAR المُعزز بـ ER نتائج رائدة على ثلاث معايير موجودة. علاوةً على ذلك، نقترح بروتوكول تقييم جديد لـ ZSAR على مجموعة بيانات Kinetics للتغلب على قيود المعايير الحالية، ونُظهر أول حالة يتم فيها تحقيق أداء ZSAR يعادل أداء نماذج التعلم بعينات قليلة في بيئة أكثر واقعية. سيتم إتاحة كودنا والبيانات المجمعة من جمل ED عبر الرابط: https://github.com/DeLightCMU/ElaborativeRehearsal.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp