HyperAIHyperAI

Command Palette

Search for a command to run...

ActBERT: تعلّم تمثيلات الفيديو-النص العالمية-المحلية

Linchao Zhu Yi Yang

الملخص

في هذه الورقة، نقدّم نموذج ActBERT لتعلم التمثيلات المشتركة بين الفيديو والنص بشكل ذاتي من بيانات غير مُعلَّمة. أولاً، نستفيد من المعلومات الإجرائية العالمية لتسريع التفاعلات المتبادلة بين النصوص اللغوية والكائنات المحلية في المناطق. ويُمكّن هذا النهج من استخلاص أدلة بصرية عامة ومحليّة من التسلسلات المرئية والوصف النصي المرتبط بها، مما يُمكّن من نمذجة علاقات دقيقة بين البصريات والنصوص. ثانيًا، نقدّم كتلة مُحَوَّلة متشابكة (ENT) لتمثيل ثلاث مصادر للمعلومات: الإجراءات العالمية، والكائنات المحلية في المناطق، والوصف اللغوي. يتم اكتشاف الت corresponدنس بين المستوى العام والمحلي من خلال استخلاص ذكٍّ للإشارات من المعلومات السياقية. ويُفرض على التمثيل المشترك بين الفيديو والنص أن يكون واعيًا بالكائنات الدقيقة، وكذلك بالنية البشرية العامة. وقد قمنا بتوثيق قدرة ActBERT على التعميم في المهام اللاحقة المتعلقة بالفيديو واللغة، مثل استرجاع مقاطع الفيديو المرتبطة بالنصوص، وتوليد العناوين للفيديوهات، والإجابة على الأسئلة المتعلقة بالفيديوهات، وتقسيم الإجراءات، وتحديد خطوات الإجراء. وقد أظهر ActBERT تفوقًا كبيرًا على أحدث النماذج، مما يدل على تفوقه في تعلم التمثيلات بين الفيديو والنص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp