HyperAIHyperAI

Command Palette

Search for a command to run...

فتح مفردات الأفعال المركزة على الذات

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao

الملخص

الأفعال البشرية في مقاطع الفيديو الذاتية غالبًا ما تكون تفاعلات بين اليد والأشياء تتكون من فعل (يقوم به اليد) مطبق على شيء. رغم توسيع نطاقها بشكل كبير، لا تزال المجموعات البيانات الذاتية تواجه حدين اثنين - ندرة تركيبات الأفعال ومجموعة مغلقة من الأشياء التي تتفاعل معها. يقترح هذا البحث مهمة جديدة لتمييز الأفعال بمعجم مفتوح. بالنظر إلى مجموعة من الأفعال والأشياء التي تم رصدها أثناء التدريب، فإن الهدف هو تعميم هذه الأفعال على معجم مفتوح للأفعال التي تتضمن أشياء مشاهدة وجديدة. لتحقيق ذلك، نفصل توقعات الفعل والشيء عبر مُشفِّر فعل غير مرتبط بالأشياء ومُشفِّر شكل قائم على الدفع للأشياء. يستخدم الدفع تمثيلات CLIP (CLIP Representations) لتوقع معجم مفتوح من الأشياء التي تتفاعل معها. ننشئ مقاييس معجمية مفتوحة على مجموعتي البيانات EPIC-KITCHENS-100 وAssembly101؛ بينما فشلت طرق التمييز المغلقة للأفعال في التعميم، أثبتت الطريقة المقترحة فعاليتها. بالإضافة إلى ذلك، حقق مُشفِّر الشيء لدينا أداءً أفضل بكثير من طرق التمييز البصرية الحالية بمعجم مفتوح في تمييز الأشياء الجديدة التي تتفاعل معها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فتح مفردات الأفعال المركزة على الذات | مستندات | HyperAI