HyperAIHyperAI

Command Palette

Search for a command to run...

HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

تمثل تضمينات الفيديو واللغة مسارًا واعدًا لإدخال الدلالة إلى التمثيلات البصرية، لكن الطرق الحالية تُسجِّل فقط الارتباطات القصيرة الأجل بين مقاطع فيديو تدوم ثوانٍ قليلة ونصوصها المرافقة. نقترح "هييرفL" (HierVL)، وهو تضمين فيديو-لغة هرمي جديد يأخذ بعين الاعتبار بشكل متزامن الارتباطات القصيرة الأجل والطويلة الأجل. كبيانات تدريب، نستخدم مقاطع فيديو مصحوبة بوصف نصي مُزَوَّت بالوقت لإجراءات بشرية، بالإضافة إلى ملخص نصي عالي المستوى للنشاط عبر الفيديو الطويل كاملاً (كما هو متاح في مجموعة Ego4D). نقدّم هدفًا تدريبيًا تنازليًا هرميًا يشجع على التوافق بين النص والصورة على كل من مستوى القطعة (clip) ومستوى الفيديو كاملاً. بينما تستخدم القيود على مستوى القطعة الوصفات الخطوة بخطوة لالتقاط ما يحدث في تلك اللحظة بالذات، تستخدم القيود على مستوى الفيديو النص الموجز لالتقاط سبب حدوث ذلك، أي السياق الأوسع للنشاط والنية وراء الفعل. يؤدي نموذجنا الهرمي إلى تمثيل للقطعة يتفوق على نموذج مستواه الواحد، وكذلك إلى تمثيل فيديو طويل الأجل يحقق نتائج متفوقة (SotA) في المهام التي تتطلب نمذجة فيديو طويلة الأجل. كما تُظهر "هييرفL" قدرة فعّالة على الانتقال إلى عدة مهام تطبيقية صعبة (في EPIC-KITCHENS-100، وCharades-Ego، وHowTo100M) سواء في البيئة الصفرية (zero-shot) أو في البيئة المُعدّلة (fine-tuned).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp