فتح مفردات الأفعال المركزة على الذات

الأفعال البشرية في مقاطع الفيديو الذاتية غالبًا ما تكون تفاعلات بين اليد والأشياء تتكون من فعل (يقوم به اليد) مطبق على شيء. رغم توسيع نطاقها بشكل كبير، لا تزال المجموعات البيانات الذاتية تواجه حدين اثنين - ندرة تركيبات الأفعال ومجموعة مغلقة من الأشياء التي تتفاعل معها. يقترح هذا البحث مهمة جديدة لتمييز الأفعال بمعجم مفتوح. بالنظر إلى مجموعة من الأفعال والأشياء التي تم رصدها أثناء التدريب، فإن الهدف هو تعميم هذه الأفعال على معجم مفتوح للأفعال التي تتضمن أشياء مشاهدة وجديدة. لتحقيق ذلك، نفصل توقعات الفعل والشيء عبر مُشفِّر فعل غير مرتبط بالأشياء ومُشفِّر شكل قائم على الدفع للأشياء. يستخدم الدفع تمثيلات CLIP (CLIP Representations) لتوقع معجم مفتوح من الأشياء التي تتفاعل معها. ننشئ مقاييس معجمية مفتوحة على مجموعتي البيانات EPIC-KITCHENS-100 وAssembly101؛ بينما فشلت طرق التمييز المغلقة للأفعال في التعميم، أثبتت الطريقة المقترحة فعاليتها. بالإضافة إلى ذلك، حقق مُشفِّر الشيء لدينا أداءً أفضل بكثير من طرق التمييز البصرية الحالية بمعجم مفتوح في تمييز الأشياء الجديدة التي تتفاعل معها.