منذ 6 أشهر

الملخص

تمثل تضمينات الفيديو واللغة مسارًا واعدًا لإدخال الدلالة إلى التمثيلات البصرية، لكن الطرق الحالية تُسجِّل فقط الارتباطات القصيرة الأجل بين مقاطع فيديو تدوم ثوانٍ قليلة ونصوصها المرافقة. نقترح "هييرفL" (HierVL)، وهو تضمين فيديو-لغة هرمي جديد يأخذ بعين الاعتبار بشكل متزامن الارتباطات القصيرة الأجل والطويلة الأجل. كبيانات تدريب، نستخدم مقاطع فيديو مصحوبة بوصف نصي مُزَوَّت بالوقت لإجراءات بشرية، بالإضافة إلى ملخص نصي عالي المستوى للنشاط عبر الفيديو الطويل كاملاً (كما هو متاح في مجموعة Ego4D). نقدّم هدفًا تدريبيًا تنازليًا هرميًا يشجع على التوافق بين النص والصورة على كل من مستوى القطعة (clip) ومستوى الفيديو كاملاً. بينما تستخدم القيود على مستوى القطعة الوصفات الخطوة بخطوة لالتقاط ما يحدث في تلك اللحظة بالذات، تستخدم القيود على مستوى الفيديو النص الموجز لالتقاط سبب حدوث ذلك، أي السياق الأوسع للنشاط والنية وراء الفعل. يؤدي نموذجنا الهرمي إلى تمثيل للقطعة يتفوق على نموذج مستواه الواحد، وكذلك إلى تمثيل فيديو طويل الأجل يحقق نتائج متفوقة (SotA) في المهام التي تتطلب نمذجة فيديو طويلة الأجل. كما تُظهر "هييرفL" قدرة فعّالة على الانتقال إلى عدة مهام تطبيقية صعبة (في EPIC-KITCHENS-100، وCharades-Ego، وHowTo100M) سواء في البيئة الصفرية (zero-shot) أو في البيئة المُعدّلة (fine-tuned).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HierVL: تعلّم تمثيلات متعددة المستويات للصورة المرئية واللغة

Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters