HyperAIHyperAI

Command Palette

Search for a command to run...

HERO: تشفير متسلسل لتدريب مسبق متعدد التمثيلات للفيديو واللغة

Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu

الملخص

نقدّم إطار عمل جديد يُسمّى HERO، مُصمم لتعلم التمثيل الشامل متعدد الوسائط على نطاق واسع (فيديو + لغة). يتمثل HERO في تشفير المدخلات متعددة الوسائط عبر بنية هرمية، حيث يتم التقاط السياق المحلي لإطار فيديو باستخدام محول عابر متعدد الوسائط (Cross-modal Transformer) من خلال دمج متعدد الوسائط، بينما يتم التقاط السياق العالمي للفيديو باستخدام محول زمني (Temporal Transformer). بالإضافة إلى مهام التدريب المسبق القياسية مثل نمذجة اللغة المُقنّعة (Masked Language Modeling - MLM) ونمذجة الإطارات المُقنّعة (Masked Frame Modeling - MFM)، قمنا بتصميم مهامتين جديدتين للتدريب المسبق: (1) مطابقة الفيديو والنص التوضيحي (Video-Subtitle Matching - VSM)، حيث يتنبأ النموذج بالمحاذاة الزمنية المحلية والعالمية معًا؛ و(2) نمذجة ترتيب الإطارات (Frame Order Modeling - FOM)، حيث يتنبأ النموذج بالترتيب الصحيح للإطارات المُختلطة (المُعاد ترتيبها). تم تدريب HERO بشكل مشترك على مجموعة بيانات HowTo100M والبيانات التلفزيونية الضخمة لاستيعاب فهم عميق للديناميكيات الاجتماعية المعقدة التي تتضمن تفاعلات متعددة الأشخاص. أظهرت التجارب الشاملة أن HERO يحقق أداءً جديدًا في أفضل النتائج على العديد من المعايير في مهام الاسترجاع القائمة على النص (Text-based Video/Video-moment Retrieval)، والاستجابة للأسئلة المتعلقة بالفيديو (Video Question Answering - QA)، والاستنتاج متعدد الوسائط (Video-and-language Inference)، وكتابة الوصف النصي للفيديو (Video Captioning) عبر مجالات مختلفة. كما قمنا بعرض معيارين جديدين صعبين هما How2QA وHow2R لمهام الاستجابة للأسئلة المتعلقة بالفيديو والاسترجاع، جُمعتا من محتوى فيديو متنوع عبر وسائط متعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HERO: تشفير متسلسل لتدريب مسبق متعدد التمثيلات للفيديو واللغة | مستندات | HyperAI