HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2Video: إتقان استرجاع الفيديو-النص من خلال CLIP الصوتي

Han Fang Pengfei Xiong Luhui Xu Yu Chen

الملخص

نُقدّم شبكة CLIP2Video لنقل نموذج التدريب المسبق للصورة واللغة إلى مهمة استرجاع الفيديو والنص بطريقة نهائية (end-to-end). تسعى الطرق الرائدة في مجال التعلم بين الفيديو واللغة إلى استخلاص السمات الفضائية الزمنية وتفاعل الوسائط المتعددة بين الفيديو واللغة من مجموعة بيانات كبيرة الحجم تتضمن أزواج فيديو-نص. على عكس هذه الطرق، نستفيد من نموذج الصورة واللغة المُدرّب مسبقًا، ونُبسطه إلى إطار عمل مكوّن من مرحلتين، يعتمد على التعلّم المشترك بين الصورة والنص، وتعزيز العلاقات الزمنية بين الإطارات الفيديوية والنص المُرافق لها على حدة، مما يجعله قادرًا على التدريب على مجموعات بيانات مقارنةً صغيرة. بشكل محدد، وباستنادًا إلى السمات المكانية التي يُستخلصها نموذج التدريب المسبق المبني على التباين بين اللغة والصورة (CLIP)، يحتوي نموذجنا على كتلة الفرق الزمني (Temporal Difference Block) لاستخلاص الحركات في الإطارات الفيديوية بدقة زمنية عالية، وكتلة التموضع الزمني (Temporal Alignment Block) لإعادة ترتيب الرموز (tokens) الخاصة بمقاطع الفيديو والعبارات النصية، وتعزيز الترابط متعدد الوسائط. قمنا بدراسات تحليلية مفصلة (ablation studies)، وحققنا أداءً يُعدّ من الأفضل عالميًا على أهم معايير استرجاع النص إلى الفيديو والفيديو إلى النص، بما في ذلك أرقام قياسية جديدة في دقة الاسترجاع على مجموعات MSR-VTT وMSVD وVATEX.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
CLIP2Video: إتقان استرجاع الفيديو-النص من خلال CLIP الصوتي | مستندات | HyperAI